网页内容抓取软件MetaSeeker升级公告

MetaSeeker升级公告

网页内容抓取软件工具包MetaSeeker再次升级,当前版本是V4.11.7,升级内容包括:

  1. 支持Firefox 7.x 版本
  2. 修改抓取https加密网站的bug


抓取https加密网站的bug说明

网页内容抓取软件工具包MetaSeeker的以前版本限制了https加密网站的抓取。虽然没有限制网页内容的抓取,但是生成不了网址是https的新线索。比如,抓取https://www.xing.com 网站上的好友关系,抓取某个网友的首页,除了抓取基本信息外,还将该网友的好友的首页地址抓取下来,并且将抓取到的网址生成新的网页抓取线索。这类抓取活动有很多意义,例如,将所有交友关系抓取下来,可以构画出该网站的社交图谱,可用于多种数据挖掘目的;又如,用MetaSeeker经常抓取社交网站,有助于发展好友,因为MetaSeeker代替你自动点击和访问其他人的空间,提高你的帐号的活度。

此次升级放开了这个限制。最新版本抓取https网页和http网页的操作完全一样,MetaSeeker不关心是那类网页,同等对待之。