他山之石

结构化网页抓取工具Solvent

GooSeeker研发中心发布的MetaSeeker本身就是一款抓取网页内容并将其结构化存储的工具,GooSeeker网站有大量文档资料介绍MetaSeeker的原理,GooSeeker虽然也密切关注语义网络(Semantic Web)的发展动向,但是公开发布的MetaSeeker在线版更关注实用价值,相反国外的更多类似产品在网页内容结构化方面更进一步,本文介绍Solvent,它是语义网络项目Simile中的

便宜有效的BI分析和报表方案

今天看到一个很有意思的专门为小企业做BI(Business Intelligence,商业智能,商业情报)分析报表的在线服务RJMetrics,很有意思的原因是它的专注,专门做数据分析和图表报告,客户群也很专注。在当前商业智能和竞争情报快速发展和转型的时期,对我们进一步开发和推广SliceProfile企业竞争情报系统很有借鉴价值。

怎样设计网站信息采集方案

前面大部分博文是关于怎样用MetaSeeker完成网站信息采集任务,本文推荐一篇文章,关于新闻调查公司ProPublica怎样DIY网站信息采集方案。

网站采集解决方案Mozenda对比分析

网站采集解决方案Mozenda的界面比较美观和精致,操作流程与免费采集器MetaSeeker基本一致,Mozenda Agent Builder相当于MetaSeeker的MetaStudio,Mozenda Agent Console相当于MetaSeeker的DataScraper。与MetaSeeker最大的不同在于:Mozenda的agents都运行在Mozenda的数据中心服务器上,所以采集结果也存在数据中心,可以通过下载或者邮件发送方式将数据拷贝到本地。

Web自动化和信息提取工具iMacros介绍

海外的iMacros for Firefox也是Firefox插件,这一点同国产的MetaSeeker一样,比较iMacros V6.6.5.0和MetaSeeker V4.11.0,发现诸多重合的功能特性,例如,Web信息提取功能。

使用Python实现的网页内容抓取和网络爬虫软件工具

  • Scrapy是开源的用Python编写的屏幕抓取和网络爬虫(网络蜘蛛)软件框架,从Scrapy at a glance一文可以看出,Scrapy的爬行目标需要指定,网页内容抽取采用了XPath表达式,具有聚焦爬虫的特点

其他资料

网页抓取/数据抽取/网络爬虫技术资料汇总

使用Java实现的网页内容抓取和数据抽取工具

  • 简洁轻便的Java浏览器HtmlUnit 2.6发布介绍了HtmlUnit,这是一个用Java编写的网站测试工具,是一个开源项目,网站测试工具一般通过模拟用户的点击网页的行为测试某个网站的所有网页是否正确、是否可访问等,因此同样的工具可以用于执行网站信息提取和网页数据抽取任务,而且网站测试工具一般能够很好的解析Javascript代码,所以很适合采集A

使用Ruby实现网页抓取和数据抽取

使用Javascript实现网页抓取和数据抽取

网页抓取/数据抽取/网络爬虫软件工具

  • email采集工具 Email Scraper
    • 功能描述:是一个PHP类库,能够爬行互联网(网络爬虫功能)抓取网页并且将电子邮件email地址抽取出来,并且将采集到的e-mail地址保存到MySQL数据库中。
    • 网络爬虫功能:给定一个开始页面,该网络蜘蛛顺着页面上所有的超链接爬行到其它网页,可以设定特定的文件名后缀,让该网络蜘蛛不用抓取。
Syndicate content