- Data extraction for Web 2.0: Screen scraping in Ruby/Rails 是一篇经典的文章,多次看到被引用的版本
- Scraping with style: scrAPI toolkit for Ruby介绍了用Ruby实现的屏幕抓取/Web抓取工具包scrAPI,这篇文章的开头还讲解了实现网页内容抽取软件时需要考虑的基本问题,然后讲解了使用CSS se
今天在网上闲逛,看到一篇文章应对不良网络文化的技术之一——网络信息抽取技术,文章标题很有冲击力,一般来说网页抓取和数据抽取往往被看成一种内容“窃取”的行为,一般不受欢迎,网页抓取/数据抽取/信息提取软件工具包MetaSeeker本质上就是一个网站内容采集工具,只是其作者找到了一个更有积极意义的定位,期望能够