网页抓取

服务器连接不上的问题解决

服务器连接不上怎么办?通常的现象是:在MetaStudio的底部状态条和DataScraper的中部控制面板上显示两个红色图标,而且显示“xxx连接中...”

如果是第一次安装MetaStudio和DataScraper,而且可以确信服务帐号没有过期,那么应该做如下检查。

自动登录抓取功能使用方法

自动登录抓取网页有两种情景:

采集雪球网遇到Cannot find the node

用MetaStudio为雪球网定义采集规则时,定义完信息结构后,打开逆向选择功能,用鼠标点击内嵌浏览器中的帖子区域,弹出一个对话框,提示

       Cannot find the node

如图

cannot find the node

抓取雪球网股票信息

样本页面:http://xueqiu.com/S/SH601318

主题名:demo_fuller_xueqiu_list

雪球网的这个网页跟微博网站的网页很像,假设我们要抓取网友发表的关于中国平安的股票消息,跟抓取微博消息一样。而且,这个网站采用的动态网页技术也跟微博类似。这类动态网页的内容不断自动变化,如果在MetaStudio定义抓取规则过程中发生了变化,会有严重影响。

主题识别可能会遇到的问题

MetaStudio在层级抓取方面提供了一些便利方法。层级抓取是网络爬虫从深度方面扩展爬行范围的手段,比如,先抓取新闻网站的新闻列表,主要目的是得到每条新闻的网址,然后深入下去抓取每条新闻的详细内容。深入抓取的层次数量可以无限多,用户需要用MetaStudio给每一层定义抓取规则。

为建设国外淘宝代购网站采集商品信息

什么是代购网站

淘宝代购是一个很繁盛的行业,在百度上搜索“国外淘宝代购”,“淘宝网代购服务”等能够查到大量信息。

Panli网给了一个定义:

网上商城比价案例观察--大久宝

网页抓取工具MetaSeeker开发的目的之一是为网上商城比价平台提供基础工具,经过5年的经营,MetaSeeker的客户既包括国内网上商城第一梯队中的大企业,也有超过万家小客户。几乎任何品类商品的比价都有涉足,比如,百货、电器、电子、汽车用品、快销品、机票、旅店、医药卫生等等,看到客户搭建的形形色色的比价系统如雨后春笋般茁壮成长也是一件快事。

Priceline商业模式

MetaSeeker在在线实时价格监测领域已经涉足了多个行业,在线旅游信息监测方面一直没有显著进展,仅为越南和香港两个公司定制过酒店搜索和机票价格采集技术平台。在线实时监测机票价格仍然存在一些疑虑,例如,持续看到发生在欧洲的相关法律纠纷,又如,因为机票价格变化很快,加上目标网站反采集手段用得比较多,采集成本比较高。

为市场营销采集和挖掘客户关系数据

客户数据经过适当挖掘就是宝贵的市场营销信息,例如,客户的电话、email地址等,可以直接用于电话营销和email营销,获得的客户信息越丰富则越适合作精准营销。总之,客户信息的采集和挖掘对任何商业组织来说都很重要。当前,越来越多的商业活动利用互联网媒介,同时越来越多的客户信息公布在web上,采用类似MetaSeeker这类网页信息抓取技术采集email、电话、地址信息十分重要。

怎样提高采集京东商城商品价格的速度

在建设商品比价系统或者监测网络商城商品价格时,需要及时地采集最新的商品价格,尤其做价格监测竞争情报系统时,监测的频度要求很高。网站信息采集软件工具包MetaSeeker以精准采集著称,很适合做竞争情报采集系统,因此多个企业用户采用MetaSeeker建设商品比价和价格监测系统。

Syndicate content