他山之石

结构化网页抓取工具Solvent

Thu, 05/05/2011 - 10:53 — Fuller

GooSeeker研发中心发布的MetaSeeker本身就是一款抓取网页内容并将其结构化存储的工具，GooSeeker网站有大量文档资料介绍MetaSeeker的原理，GooSeeker虽然也密切关注语义网络（Semantic Web）的发展动向，但是公开发布的MetaSeeker在线版更关注实用价值，相反国外的更多类似产品在网页内容结构化方面更进一步，本文介绍Solvent，它是语义网络项目Simile中的

Fuller's blog
Login to post comments
Read more

便宜有效的BI分析和报表方案

Tue, 01/18/2011 - 10:46 — Fuller

今天看到一个很有意思的专门为小企业做BI(Business Intelligence，商业智能，商业情报)分析报表的在线服务RJMetrics，很有意思的原因是它的专注，专门做数据分析和图表报告，客户群也很专注。在当前商业智能和竞争情报快速发展和转型的时期，对我们进一步开发和推广SliceProfile企业竞争情报系统很有借鉴价值。

Fuller's blog
Login to post comments
Read more

怎样设计网站信息采集方案

Tue, 01/11/2011 - 15:00 — Fuller

前面大部分博文是关于怎样用MetaSeeker完成网站信息采集任务，本文推荐一篇文章，关于新闻调查公司ProPublica怎样DIY网站信息采集方案。

Fuller's blog
Login to post comments
Read more

网站采集解决方案Mozenda对比分析

Fri, 01/07/2011 - 17:35 — Fuller

网站采集解决方案Mozenda的界面比较美观和精致，操作流程与免费采集器MetaSeeker基本一致，Mozenda Agent Builder相当于MetaSeeker的MetaStudio，Mozenda Agent Console相当于MetaSeeker的DataScraper。与MetaSeeker最大的不同在于：Mozenda的agents都运行在Mozenda的数据中心服务器上，所以采集结果也存在数据中心，可以通过下载或者邮件发送方式将数据拷贝到本地。

Fuller's blog
Login to post comments
Read more

Web自动化和信息提取工具iMacros介绍

Thu, 05/13/2010 - 17:51 — Fuller

海外的iMacros for Firefox也是Firefox插件，这一点同国产的MetaSeeker一样，比较iMacros V6.6.5.0和MetaSeeker V4.11.0，发现诸多重合的功能特性，例如，Web信息提取功能。

Fuller's blog
Login to post comments
Read more

使用Python实现的网页内容抓取和网络爬虫软件工具

Sat, 09/26/2009 - 23:03 — Fuller

Scrapy是开源的用Python编写的屏幕抓取和网络爬虫（网络蜘蛛）软件框架，从Scrapy at a glance一文可以看出，Scrapy的爬行目标需要指定，网页内容抽取采用了XPath表达式，具有聚焦爬虫的特点

其他资料

网页抓取/数据抽取/网络爬虫技术资料汇总

Fuller's blog
Login to post comments

使用Java实现的网页内容抓取和数据抽取工具

Tue, 09/15/2009 - 20:45 — Fuller

简洁轻便的Java浏览器HtmlUnit 2.6发布介绍了HtmlUnit，这是一个用Java编写的网站测试工具，是一个开源项目，网站测试工具一般通过模拟用户的点击网页的行为测试某个网站的所有网页是否正确、是否可访问等，因此同样的工具可以用于执行网站信息提取和网页数据抽取任务，而且网站测试工具一般能够很好的解析Javascript代码，所以很适合采集A

使用Ruby实现网页抓取和数据抽取

Tue, 09/15/2009 - 12:04 — Fuller

Data extraction for Web 2.0: Screen scraping in Ruby/Rails 是一篇经典的文章，多次看到被引用的版本
Scraping with style: scrAPI toolkit for Ruby介绍了用Ruby实现的屏幕抓取/Web抓取工具包scrAPI，这篇文章的开头还讲解了实现网页内容抽取软件时需要考虑的基本问题，然后讲解了使用CSS se

使用Javascript实现网页抓取和数据抽取

Mon, 09/14/2009 - 17:58 — Fuller

网页抓取/数据抽取软件工具包MetaSeeker中的ＤataScraper是一个100%使用Javascript编写的定题爬虫(或者叫聚焦爬虫或者主题爬虫)和网页内容提取和数据格式化工具，是一个Firefox扩展程序
网页抓取/数据抽取软件工具包MetaSeeker中的MetaStudio是一个混合使用Javascript和C++编写的语义结构定义和网页内容提取规则定义工具，

Fuller's blog
Login to post comments
Read more

网页抓取/数据抽取/网络爬虫软件工具

Wed, 09/09/2009 - 09:07 — Fuller

email采集工具 Email Scraper
- 功能描述：是一个PHP类库，能够爬行互联网（网络爬虫功能）抓取网页并且将电子邮件email地址抽取出来，并且将采集到的e-mail地址保存到MySQL数据库中。
- 网络爬虫功能：给定一个开始页面，该网络蜘蛛顺着页面上所有的超链接爬行到其它网页，可以设定特定的文件名后缀，让该网络蜘蛛不用抓取。

Fuller's blog
Login to post comments
Read more

其他资料

切换语言