数据抽取

抓取雪球网股票信息

Tue, 05/28/2013 - 21:31 — Fuller

主题名：demo_fuller_xueqiu_list

雪球网的这个网页跟微博网站的网页很像，假设我们要抓取网友发表的关于中国平安的股票消息，跟抓取微博消息一样。而且，这个网站采用的动态网页技术也跟微博类似。这类动态网页的内容不断自动变化，如果在MetaStudio定义抓取规则过程中发生了变化，会有严重影响。

Fuller's blog
Login to post comments
Read more

主题识别可能会遇到的问题

Fri, 05/10/2013 - 22:23 — Fuller

MetaStudio在层级抓取方面提供了一些便利方法。层级抓取是网络爬虫从深度方面扩展爬行范围的手段，比如，先抓取新闻网站的新闻列表，主要目的是得到每条新闻的网址，然后深入下去抓取每条新闻的详细内容。深入抓取的层次数量可以无限多，用户需要用MetaStudio给每一层定义抓取规则。

怎样展开抓取一淘上的商家

Sun, 12/30/2012 - 13:02 — Fuller

一淘网上有商品汇聚网页，比如EDIFIER/漫步者 C2音箱网页，上部是商品基本信息和价格走势，下部罗列销售这个商品的商家和网站。如果商品比较热门，卖家很多，这个网页一开始只显示一部分卖家，其他的都折叠隐藏起来，只有点击了“展开其他xxx件商品”后，才会显示出来。

Fuller's blog
Login to post comments
Read more

阿里巴巴公司搜索结果抓取方法

Sun, 12/30/2012 - 12:37 — Fuller

阿里巴巴和慧聪网分类展示众多企业和公司及其产品信息，对这些信息进行发掘，可有效地用于商业活动中。比如，发现潜在客户进行精准营销。但是，阿里巴巴网站对访问公司搜索结果网页进行了限制，利用程序代码，比如用Javascript编写的程序，可以对用户访问行为进行判断，如果发现是网络爬虫在访问这些页面，则要求输入验证码。

Fuller's blog
Login to post comments
Read more

GooSeeker研发中心发布的MetaSeeker本身就是一款抓取网页内容并将其结构化存储的工具，GooSeeker网站有大量文档资料介绍MetaSeeker的原理，GooSeeker虽然也密切关注语义网络（Semantic Web）的发展动向，但是公开发布的MetaSeeker在线版更关注实用价值，相反国外的更多类似产品在网页内容结构化方面更进一步，本文介绍Solvent，它是语义网络项目Simile中的

Fuller's blog
Login to post comments
Read more

怎样设计网站信息采集方案

Tue, 01/11/2011 - 15:00 — Fuller

前面大部分博文是关于怎样用MetaSeeker完成网站信息采集任务，本文推荐一篇文章，关于新闻调查公司ProPublica怎样DIY网站信息采集方案。

Fuller's blog
Login to post comments
Read more

网站采集解决方案Mozenda对比分析

Fri, 01/07/2011 - 17:35 — Fuller

网站采集解决方案Mozenda的界面比较美观和精致，操作流程与免费采集器MetaSeeker基本一致，Mozenda Agent Builder相当于MetaSeeker的MetaStudio，Mozenda Agent Console相当于MetaSeeker的DataScraper。与MetaSeeker最大的不同在于：Mozenda的agents都运行在Mozenda的数据中心服务器上，所以采集结果也存在数据中心，可以通过下载或者邮件发送方式将数据拷贝到本地。