网页抓取的目标是网页内容和超链接,后者是网络爬虫(例如,定题网络爬虫和动态网页抓取工具DataScraper)能够持续运转的基础。
网页抓取的目标是网页内容和超链接,后者是网络爬虫(例如,定题网络爬虫和动态网页抓取工具DataScraper)能够持续运转的基础。
考察网页信息提取软件工具包MetaSeeker的实现原理可以看出:MetaSeeker使用XPath和XSLT分析网页DOM并提取网页信息,虽然也可以使用一些字符串处理函数自定义XPath表达式,但是总体上说,与使用正则表达式分析HTML文档的方法相比区别十分明显。
网页上有大量的超链接,多数情况下显示成蓝色,而且有下划线,很好识别,点击它可以导航到其它网页,这是互联网冲浪的唯一途径。
网页内容抓取软件工具包MetaSeeker拥有多项强有力的特性帮助用户大批量高效率地抓取网页内容。很多情况下,目标网页的内容分成多页进行显示,从V1.0版本开始,MetaSeeker就有高适应性的翻页抓取能力,无论是用超链接表示翻页还是采用javascript/AJAX进行翻页,MetaSeeker都一视同仁。
网站内容采集规则生成工具MetaStudioV4.1.1版本加载先前定义的信息结构时,如果发现某个信息属性的定位规则不正确(一般情况下,目标网站页面的结构变化会引起这种问题,虽然MetaSeeker采用多项专利技术尽力自主锁定目标网站页面的变化,但是变化十分巨大的情况无法自动识别),将弹出一个提示框:
网站数据采集软件工具包MetaSeeker从V4.0.0版本开始增加了多项自定义网站数据采集规则的功能,当用户需要更灵活地从网站上采集数据时,例如,参照页面上特定文字内容采集数据(就像使用正则表达式匹配文字内容),可以自定义XPath表达式甚至XSLT指令片断。
网站数据采集软件MetaSeeker自推出以来,受到广泛关注并应用在各种数据采集领域,例如,搜索引擎、移动互联网、数据挖掘、商业情报分析等,当前的用户使用出现了两极分化的状况,规模用户用熟了以后,完全被MetaSeeker的特性所征服,因为是无与伦比的高生产力的网站数据采集软件,然而,新用户感觉学习MetaSeeker似乎有点难,变成熟练操作员后可以几分钟定义一套网站数据采集规则,而且可以规模化、协同性操作,
网页抓取软件工具MetaSeeker从V4.0.0版本开始,提供了两种周期性网页抓取功能:手工启动和自动启动。其中,手工启动方法是点击DataScraper界面上的主题列表上的鼠标右键弹出菜单排期,而自动启动是网页抓取和数据结构化工具DataScraper运行之初自动启动的,需要事先在周期性网页抓取指令文件中配置说明。
Google文档的用户越来越多,家庭用户往往看中它的免费,买一套MS office还是要花一笔钱的,商业用户往往看中它的协同编辑能力。例如,我曾经使用它与多个不同地区的合作者一起进行了一次互联网营销活动,例如,一起制定营销计划、一起准备营销传播材料、一起记录营销计划执行结果,好像大家就做在一个办公室,使用同一块白板,进行头脑风暴,指挥和执行产品营销活动。
本文从分析Factual的产品特性入手,对比分析几个主要的语义网络产品的竞争状况。Factual的创始人Gil Elbaz是赫赫有名的Google AdSense技术核心的发明人,估计在将该技术卖给Google时收入了一大笔。