Blogs

网站数据采集软件MetaSeeker视频演示即将发布

Wed, 11/18/2009 - 11:52 — Fuller

网站数据采集软件MetaSeeker自推出以来，受到广泛关注并应用在各种数据采集领域，例如，搜索引擎、移动互联网、数据挖掘、商业情报分析等，当前的用户使用出现了两极分化的状况，规模用户用熟了以后，完全被MetaSeeker的特性所征服，因为是无与伦比的高生产力的网站数据采集软件，然而，新用户感觉学习MetaSeeker似乎有点难，变成熟练操作员后可以几分钟定义一套网站数据采集规则，而且可以规模化、协同性操作，

Fuller's blog
Login to post comments
Read more

什么是网页抓取自恢复功能

Wed, 11/18/2009 - 09:58 — Fuller

网页抓取软件工具MetaSeeker从V4.0.0版本开始，提供了两种周期性网页抓取功能：手工启动和自动启动。其中，手工启动方法是点击DataScraper界面上的主题列表上的鼠标右键弹出菜单排期，而自动启动是网页抓取和数据结构化工具DataScraper运行之初自动启动的，需要事先在周期性网页抓取指令文件中配置说明。

Fuller's blog
Login to post comments
Read more

基于结构化数据交换平台的电子政务系统案例研究

Fri, 10/23/2009 - 10:43 — Fuller

我们在使用语义网络技术公开发布电子政务信息和MetaSeeker确保电子政务和服务型政府网站向语义网络时代跨越两篇文章讲解了面向语义网络时代的结构化数据技术方法在建设下一代电子政务系统中的应用前景，以及怎样使用网页信息提取系统将非结构化内容转换成结构化数据以建立电子政务信息交换平台，还举了Data.gov和

Fuller's blog
Login to post comments
Read more

读爱帮网的法律声明看数据提取软件的法律问题

Wed, 10/21/2009 - 22:57 — Fuller

本站早在2008年就开始跟踪大众点评网诉爱帮网的案件，网络爬虫和数据提取软件涉及的法律问题一直争议不断，垂直搜索兴起后，这类法律问题更突出了，垂直搜索与普通搜索不同，一般使用数据提取软件和定题网络爬虫，将目标网站上的与主题相关的结构化内容提取下来，集成到自己的垂直搜索服务中，这与普通搜索为目标网站建立索引不同，著作权纠纷一直持续不断，尤其是包括

Google文档如何抓取页面内容

Sat, 10/17/2009 - 15:56 — Fuller

Google文档的用户越来越多，家庭用户往往看中它的免费，买一套MS office还是要花一笔钱的，商业用户往往看中它的协同编辑能力。例如，我曾经使用它与多个不同地区的合作者一起进行了一次互联网营销活动，例如，一起制定营销计划、一起准备营销传播材料、一起记录营销计划执行结果，好像大家就做在一个办公室，使用同一块白板，进行头脑风暴，指挥和执行产品营销活动。

Fuller's blog
Login to post comments
Read more

语义网络产品竞争性分析

Wed, 10/14/2009 - 17:20 — Fuller

本文从分析Factual的产品特性入手，对比分析几个主要的语义网络产品的竞争状况。Factual的创始人Gil Elbaz是赫赫有名的Google AdSense技术核心的发明人，估计在将该技术卖给Google时收入了一大笔。

Fuller's blog
Login to post comments
Read more

网页抓取/网站内容采集与著作权/知识产权

Sun, 10/11/2009 - 12:27 — Fuller

网页抓取和网站内容采集是否会触犯著作权或其它知识产权相关的法律？这是一个很难讲清楚的问题，好像也没有明确的法律条文规定，当前的状态就像一个网友说的：

Fuller's blog
Login to post comments
Read more

周期性网页抓取

Sat, 10/10/2009 - 11:20 — Fuller

负责网页抓取的网络爬虫（网络蜘蛛）一般需要周期性地（重复地）爬行网页，搜索引擎的网络爬虫重复爬行网页的目的是发现网页内容是否发生了改变，如果改变了，需要及时地修改索引库，为了提高工作效率，重复爬行的周期需要用一个比较复杂的算法计算出来，例如，自适应的算法能够根据目标网站的内容更新的频度确定什么时间再次抓取网页。

Fuller's blog
Login to post comments
Read more

网页抓取工具软件增强

Fri, 10/09/2009 - 21:01 — Fuller

网页抓取/数据抽取/信息提取软件工具包MetaSeekerV4.0.0在线版已经发布，网页抓取精度和适应性大大提高，此前的版本，网页抓取的数据抽取规则是完全自动生成的，用户除了通过数据映射、FreeFormat映射和样例复制品映射操作指导MetaSeeker生成数据抽取规则以外，并不能手工编写某写信息属性（网页内容片断）的数据抽取规则。

使用语义网络技术公开发布电子政务信息

Wed, 09/30/2009 - 21:50 — Fuller

每天，政府各部门都要向互联网发布大量信息和各种数据，建设透明政府和服务型政府需要有效的发布和共享信息的技术手段和平台，并且应该鼓励公众和商业团体使用和重用政府发布的信息，进行聚合、关联和整合，以便更有效地提供公共服务。

Fuller's blog
Login to post comments
Read more

GooSeeker