- 网页抓取/数据抽取软件工具包MetaSeeker中的DataScraper是一个100%使用Javascript编写的定题爬虫(或者叫聚焦爬虫或者主题爬虫)和网页内容提取和数据格式化工具,是一个Firefox扩展程序
- 网页抓取/数据抽取软件工具包MetaSeeker中的MetaStudio是一个混合使用Javascript和C++编写的语义结构定义和网页内容提取规则定义工具,
RWW最新文章Top 5 Web Trends of 2009: Structured Data将结构化数据(structured data)放在最前面讨论,虽然没有排序的意味,但是至少说明当人们思考新技术潮流时结构化数据首先出现在头脑中。
我在一系列文章中讨论了结构化数据(structured data)和结构化数据互联(linked data)及其与语义网络(semantic web)的关系,例如:
Century 21 Canada Sues Rogers Communications' Real Estate Site Over 'Data Scraping'是今天海外媒体和社会性媒体讨论的热点,一个比较详细的分析报道Rogers cited for 'scraping' listings可以看出是两个巨头之间的搏斗,诉“不公平竞争”,因为被告网站Zoocasa通过采集原告网站上的图片和房产介绍信息,认为被告网站获得了不公平的竞争优势(an unfair competitive advantage)并侵犯了著作权(copyright)
准确的说不是本人的展望,是读The Future of Vertical Search Engines的感想。
今天在网上闲逛,看到一篇文章应对不良网络文化的技术之一——网络信息抽取技术,文章标题很有冲击力,一般来说网页抓取和数据抽取往往被看成一种内容“窃取”的行为,一般不受欢迎,网页抓取/数据抽取/信息提取软件工具包MetaSeeker本质上就是一个网站内容采集工具,只是其作者找到了一个更有积极意义的定位,期望能够