数据抽取

抓取雪球网股票信息

样本页面:http://xueqiu.com/S/SH601318

主题名:demo_fuller_xueqiu_list

雪球网的这个网页跟微博网站的网页很像,假设我们要抓取网友发表的关于中国平安的股票消息,跟抓取微博消息一样。而且,这个网站采用的动态网页技术也跟微博类似。这类动态网页的内容不断自动变化,如果在MetaStudio定义抓取规则过程中发生了变化,会有严重影响。

主题识别可能会遇到的问题

MetaStudio在层级抓取方面提供了一些便利方法。层级抓取是网络爬虫从深度方面扩展爬行范围的手段,比如,先抓取新闻网站的新闻列表,主要目的是得到每条新闻的网址,然后深入下去抓取每条新闻的详细内容。深入抓取的层次数量可以无限多,用户需要用MetaStudio给每一层定义抓取规则。

怎样展开抓取一淘上的商家

一淘网上有商品汇聚网页,比如EDIFIER/漫步者 C2音箱网页,上部是商品基本信息和价格走势,下部罗列销售这个商品的商家和网站。如果商品比较热门,卖家很多,这个网页一开始只显示一部分卖家,其他的都折叠隐藏起来,只有点击了“展开其他xxx件商品”后,才会显示出来。

阿里巴巴公司搜索结果抓取方法

阿里巴巴和慧聪网分类展示众多企业和公司及其产品信息,对这些信息进行发掘,可有效地用于商业活动中。比如,发现潜在客户进行精准营销。但是,阿里巴巴网站对访问公司搜索结果网页进行了限制,利用程序代码,比如用Javascript编写的程序,可以对用户访问行为进行判断,如果发现是网络爬虫在访问这些页面,则要求输入验证码。

结构化网页抓取工具Solvent

GooSeeker研发中心发布的MetaSeeker本身就是一款抓取网页内容并将其结构化存储的工具,GooSeeker网站有大量文档资料介绍MetaSeeker的原理,GooSeeker虽然也密切关注语义网络(Semantic Web)的发展动向,但是公开发布的MetaSeeker在线版更关注实用价值,相反国外的更多类似产品在网页内容结构化方面更进一步,本文介绍Solvent,它是语义网络项目Simile中的

怎样设计网站信息采集方案

前面大部分博文是关于怎样用MetaSeeker完成网站信息采集任务,本文推荐一篇文章,关于新闻调查公司ProPublica怎样DIY网站信息采集方案。

网站采集解决方案Mozenda对比分析

网站采集解决方案Mozenda的界面比较美观和精致,操作流程与免费采集器MetaSeeker基本一致,Mozenda Agent Builder相当于MetaSeeker的MetaStudio,Mozenda Agent Console相当于MetaSeeker的DataScraper。与MetaSeeker最大的不同在于:Mozenda的agents都运行在Mozenda的数据中心服务器上,所以采集结果也存在数据中心,可以通过下载或者邮件发送方式将数据拷贝到本地。

淘宝数据挖掘之数据魔方和情报通

一个朋友突然提起淘宝数据挖掘,并提到数据魔方情报通两款产品和服务。本人曾经帮一个朋友用通用网站数据采集软件MetaSeeker断断续续采集ebay近一年,知道在国外有个专业的服务领域:ebay mining,很多人在做,也有很多客户需求,所以做起来还是很有意思的。

为什么要消除量纲影响

消除量纲影响也叫无量纲化,根据《SPSS 聚类分析中数据无量纲化方法比较》,在多元统计分析中,各个指标之间由于计量单位和数量级不尽相同,从而使得各指标间不具有综合性,不能直接进行综合分析,这时就必须采用某种方法对各指标数值进行无量纲化处理,解决各指标数值不可综合性问题。

微博的商业模式是对碎片化信息的重组过程

对微博的关注也有时日了,早期是对twitter的体验,然后就是为锐推的设计师的独到见解所触动,近期进入了务实时期:抓取微博信息建设舆情监控系统和商业情报挖掘系统,偶尔也帮朋友单纯地抓取信息,例如,抓取新浪微博的名人博客并持续跟踪监控,挖掘意见领袖等。但是,一直很少思考微博的商业模式问题。

Syndicate content