网页抓取/数据抽取工具包MetaSeeker能否提取需要登录的网页内容?

有一些网页是需要登录的,那么怎么抓取其中的内容呢?

登录认证对网页抓取/数据抽取工具包MetaSeeker是透明的

网站登录/认证有多种方式,要抽取/提取需要登录的网页内容,需要实现有针对性的网页抓取软件模块:

  1. HTTPS
  2. HTTP Digest
  3. HTTP Basic
  4. 使用网页Form

其中,前三种是通信协议层面的,如果使用PHP,Python,Javascript, Java等语言编程,一般需要控制HTTP通信做相应的动作;而第四种是应用层面的,只需要模拟用户填写Form然后提交即可,相对容易一些。另外,还要考虑服务器是否推送cookie以及会话控制等等,所以,要自己编程把所有的都实现了是一个很大的挑战,但是,如果利用浏览器平台能力,这个就好解决了,例如,利用Firefox的安全管理器,网站认证都委托给Firefox,只需要编写应用逻辑代码即可。网页抓取/数据抽取/信息提取软件工具包MetaSeeker就是采用了这种方案,用统一的方法实现所有方式的认证,一种最简单的操作方法:先访问一次目标页面,认证通过后安全信息都记录在安全服务器上,后续的抓取工作就像针对不需要认证的页面一样,当然,这个第一次认证操作可以用程序自动完成。

MetaSeeker工具包是免费使用的,下载地址:http://www.gooseeker.com