MetaStudio已升级到版本V4.11.11,增加了一个菜单项”禁止JS“,以阻止Javascript继续运行,防止DOM持续不断的修改,这样可以提供一个固定不变的网页内容快照,供定义抓取规则之用
详细使用方法参看《定义新浪微博抓取规则导致崩溃怎么办》
MetaStudio已升级到版本V4.11.11,增加了一个菜单项”禁止JS“,以阻止Javascript继续运行,防止DOM持续不断的修改,这样可以提供一个固定不变的网页内容快照,供定义抓取规则之用
详细使用方法参看《定义新浪微博抓取规则导致崩溃怎么办》
价格监测软件PriceCIS自推出以来,深受大型商业企业和制造企业青睐。依托于网页抓取云计算平台MetaSeeker,价格监测准确度、及时性、覆盖率等众多指标远远领先于其他产品和各种比价网站。MetaSeeker的技术核心和原理公布在GooSeeker的多项发明专利中,在Javascript解析、AJAX内容抓取、微博抓取、SNS抓取方面独具优势。这个核心系统都采用C++编程,是一个极高速的网络爬虫。
最近,由于Firefox版本升级过快,MetaSeeker不得不快速跟进。然而,自从Firefox 4.0开始,Mozilla XULRunner的API不再承诺保持不变,Firefox每个版本的底层函数库都有改变,这给MetaSeeker的版本跟随造成很大困难。由于MetaSeeker功能很多,Firefox版本升级很快就给MetaSeeker做充分的回归测试预留的时间很少。
今天发现在滚屏抓取新浪微博时,网络爬虫引擎遇到异常,不能正常运行,在日志中显示错误“Null content Window”。
网页抓取工具包MetaSeeker允许用户在同一个主题名下定义多个信息结构,这样做带来一个好处:如果目标网页结构有些变动,那么可以用同主题名下的不同信息结构来抓取和存储目标网页上的信息。MetaSeeker工具包中的网络爬虫DataScraper能够自动找到符合目标网页结构的信息结构及其网页抓取规则。
在淘宝网站上,评价详情和成交纪录信息的采集都需要采用AJAX采集模式,然而,DataScraper V4.11.2及其以前版本都有一个缺陷,能够采集淘宝宝贝的评价详情,但是,采集不了成交纪录。这个问题在V4.11.3版本得以解决,参看用屏幕截图说明的操作过程《采集淘宝宝贝成交纪录的方法》。
DataScraper升级到V4.11.2时,网站采集规则生成器MetaStudio并没有同时升级。日前,MetaStudio在采集当当网商品信息项目中,发现生成的翻页规则有错误,在当当网页上,商品分成多页,网页上显示的页号1,2,...对应的DOM节点在DOM树上的顺序刚好是反的,MetaStudio生成翻页规则时,错误地使用了页号顺序,项目案例参见《使用相对线索分页采集当当网》。
网页数据抓取器DataScraper V4.11.1重点提升了AJAX网页抓取能力,最近一次升级实现了自动滚屏功能,使DataScraper成了抓取新浪微博的利器。
不幸的是,最近一次升级引入了一个严重bug,自动翻页抓取AJAX网页数据时会遇到麻烦。所以,DataScraper的最新版本升级到V4.11.2,请使用V4.11.1版本的用户尽快下载V4.11.2。
自动抓取网页工具MetaSeeker从V4.11.x版本开始,企业版和在线免费版分开发行。两者的功能完全一致,但是,企业版的性能大大提高,主要为了满足企业客户的需求,帮助企业客户大批量自动抓取网页数据。尤其今年中发布网络舆情监测和企业竞争情报分析解决方案SliceProfile后,MetaSeeker企业版销售量暴增。
本次升级应商品比价和价格监测的用户的要求,提高MetaSeeker企业版抓取网页的速度。重要产品信息罗列如下: