数据抽取

AJAX动态网页信息提取原理

Tue, 11/24/2009 - 16:26 — Fuller

考察网页信息提取软件工具包MetaSeeker的实现原理可以看出：MetaSeeker使用XPath和XSLT分析网页DOM并提取网页信息，虽然也可以使用一些字符串处理函数自定义XPath表达式，但是总体上说，与使用正则表达式分析HTML文档的方法相比区别十分明显。

Fuller's blog
Login to post comments
Read more

如何抓取AJAX/Javascript模拟的超链接

Mon, 11/23/2009 - 22:46 — Fuller

网页上有大量的超链接，多数情况下显示成蓝色，而且有下划线，很好识别，点击它可以导航到其它网页，这是互联网冲浪的唯一途径。

Fuller's blog
Login to post comments
Read more

没有翻页链接或按钮如何抓取网页内容

Mon, 11/23/2009 - 19:07 — Fuller

网页内容抓取软件工具包MetaSeeker拥有多项强有力的特性帮助用户大批量高效率地抓取网页内容。很多情况下，目标网页的内容分成多页进行显示，从V1.0版本开始，MetaSeeker就有高适应性的翻页抓取能力，无论是用超链接表示翻页还是采用javascript/AJAX进行翻页，MetaSeeker都一视同仁。

Fuller's blog
Login to post comments
Read more

加载信息结构时修改网站内容采集规则

Sat, 11/21/2009 - 10:32 — Fuller

网站内容采集规则生成工具MetaStudioV4.1.1版本加载先前定义的信息结构时，如果发现某个信息属性的定位规则不正确（一般情况下，目标网站页面的结构变化会引起这种问题，虽然MetaSeeker采用多项专利技术尽力自主锁定目标网站页面的变化，但是变化十分巨大的情况无法自动识别），将弹出一个提示框：

Fuller's blog
Login to post comments
Read more

如何使用XPath采集网站数据

Fri, 11/20/2009 - 14:22 — Fuller

网站数据采集软件工具包MetaSeeker从V4.0.0版本开始增加了多项自定义网站数据采集规则的功能，当用户需要更灵活地从网站上采集数据时，例如，参照页面上特定文字内容采集数据（就像使用正则表达式匹配文字内容），可以自定义XPath表达式甚至XSLT指令片断。

Fuller's blog
Login to post comments
Read more

网站数据采集软件MetaSeeker自推出以来，受到广泛关注并应用在各种数据采集领域，例如，搜索引擎、移动互联网、数据挖掘、商业情报分析等，当前的用户使用出现了两极分化的状况，规模用户用熟了以后，完全被MetaSeeker的特性所征服，因为是无与伦比的高生产力的网站数据采集软件，然而，新用户感觉学习MetaSeeker似乎有点难，变成熟练操作员后可以几分钟定义一套网站数据采集规则，而且可以规模化、协同性操作，

Fuller's blog
Login to post comments
Read more

什么是网页抓取自恢复功能

Wed, 11/18/2009 - 09:58 — Fuller

网页抓取软件工具MetaSeeker从V4.0.0版本开始，提供了两种周期性网页抓取功能：手工启动和自动启动。其中，手工启动方法是点击DataScraper界面上的主题列表上的鼠标右键弹出菜单排期，而自动启动是网页抓取和数据结构化工具DataScraper运行之初自动启动的，需要事先在周期性网页抓取指令文件中配置说明。

Fuller's blog
Login to post comments
Read more

读爱帮网的法律声明看数据提取软件的法律问题

Wed, 10/21/2009 - 22:57 — Fuller

本站早在2008年就开始跟踪大众点评网诉爱帮网的案件，网络爬虫和数据提取软件涉及的法律问题一直争议不断，垂直搜索兴起后，这类法律问题更突出了，垂直搜索与普通搜索不同，一般使用数据提取软件和定题网络爬虫，将目标网站上的与主题相关的结构化内容提取下来，集成到自己的垂直搜索服务中，这与普通搜索为目标网站建立索引不同，著作权纠纷一直持续不断，尤其是包括

Google文档如何抓取页面内容

Sat, 10/17/2009 - 15:56 — Fuller

Google文档的用户越来越多，家庭用户往往看中它的免费，买一套MS office还是要花一笔钱的，商业用户往往看中它的协同编辑能力。例如，我曾经使用它与多个不同地区的合作者一起进行了一次互联网营销活动，例如，一起制定营销计划、一起准备营销传播材料、一起记录营销计划执行结果，好像大家就做在一个办公室，使用同一块白板，进行头脑风暴，指挥和执行产品营销活动。

Fuller's blog
Login to post comments
Read more

周期性网页抓取

Sat, 10/10/2009 - 11:20 — Fuller

负责网页抓取的网络爬虫（网络蜘蛛）一般需要周期性地（重复地）爬行网页，搜索引擎的网络爬虫重复爬行网页的目的是发现网页内容是否发生了改变，如果改变了，需要及时地修改索引库，为了提高工作效率，重复爬行的周期需要用一个比较复杂的算法计算出来，例如，自适应的算法能够根据目标网站的内容更新的频度确定什么时间再次抓取网页。

Fuller's blog
Login to post comments
Read more

GooSeeker