- email采集工具 Email Scraper
- 功能描述:是一个PHP类库,能够爬行互联网(网络爬虫功能)抓取网页并且将电子邮件email地址抽取出来,并且将采集到的e-mail地址保存到MySQL数据库中。
- 网络爬虫功能:给定一个开始页面,该网络蜘蛛顺着页面上所有的超链接爬行到其它网页,可以设定特定的文件名后缀,让该网络蜘蛛不用抓取。
准确的说不是本人的展望,是读The Future of Vertical Search Engines的感想。
因为混搭是网页抓取/数据抽取/信息提取软件工具包MetaSeeker的服务对象,所以,对混搭(mashup)一直比较关注,看到过各种引人注目的混搭,今天看到一个所谓的“360度混搭”,真是青出于蓝。
今天在网上闲逛,看到一篇文章应对不良网络文化的技术之一——网络信息抽取技术,文章标题很有冲击力,一般来说网页抓取和数据抽取往往被看成一种内容“窃取”的行为,一般不受欢迎,网页抓取/数据抽取/信息提取软件工具包MetaSeeker本质上就是一个网站内容采集工具,只是其作者找到了一个更有积极意义的定位,期望能够