如题,有些论坛需要登录后,才能查看相关板块,请问这样的页面也能采集吗?
另外可以做到即时采集吗?比方说用户在我网站上查询,我再去其他站上抓取。。。。
MetaStudio和DataScraper仅仅是用于网站内容采集的基础工具,如果需要实现即时采集需求,需要做一些定制方案,例如,监控电子商务网站进行竞争性商品定价,也许这个方案仍然不够即时,要求最高的就是用户发起一个查询,则即刻采集目标网站的内容并混搭出一个内容呈现界面来给用户看。但是,即时度越高,运营成本越高,定制开发的难度越大,这种即刻采集需要深层次集成MetaSeeker的底层技术
其实各个脚本语言都有相关的页面抓取函数,但遇到有一些特殊情况,比方说:远程抓取一个查询页面,可这个查询页面总是来个延迟跳转,这样就抓取不到最终的内容,只能看到中间那个所谓的“正在查询”的提示信息。。。。。。。。。。。。。
MetaSeeker运行在客户端,是浏览器的扩展,它就不用关心HTTP跳转,还有一种看起来像跳转,实际是页面中通过某个Javascript代码实现的新内容刷新,MetaSeeker的抓取规则里面有多种等待和加载状态判别模式,可以利用。
这种方案有个缺点,每台计算机的抓取速度提不高。用其它编程语言从目标网站通过HTTP Get目标HTML文档的方式可以做得很快,但是,很多网页内容又难于抓取到。
网站登录有很多方式:
无法处理的情形:HTTP登录有效期是可控制的,上面的信息提取方案都是假设登录的有效期是一个会话(session)或者比这更长的时间,例如,只要浏览器不关闭就总有效,或者多少天有效,甚至长期有效。但是,如果有效期很短,只对当前网页有效,那么每访问一个网页就得登录一次,此时DataScraper就没法自动提取了。当然,实际网络上几乎没有这种网页,因为用户体验很差。
谢谢,的确,MetaSeeker并不关心用了哪种登录方式,一视同仁。
怎样即时采集网站内容
MetaStudio和DataScraper仅仅是用于网站内容采集的基础工具,如果需要实现即时采集需求,需要做一些定制方案,例如,监控电子商务网站进行竞争性商品定价,也许这个方案仍然不够即时,要求最高的就是用户发起一个查询,则即刻采集目标网站的内容并混搭出一个内容呈现界面来给用户看。但是,即时度越高,运营成本越高,定制开发的难度越大,这种即刻采集需要深层次集成MetaSeeker的底层技术
即时抓取
其实各个脚本语言都有相关的页面抓取函数,但遇到有一些特殊情况,比方说:远程抓取一个查询页面,可这个查询页面总是来个延迟跳转,这样就抓取不到最终的内容,只能看到中间那个所谓的“正在查询”的提示信息。。。。。。。。。。。。。
网页跳转有点复杂
MetaSeeker运行在客户端,是浏览器的扩展,它就不用关心HTTP跳转,还有一种看起来像跳转,实际是页面中通过某个Javascript代码实现的新内容刷新,MetaSeeker的抓取规则里面有多种等待和加载状态判别模式,可以利用。
这种方案有个缺点,每台计算机的抓取速度提不高。用其它编程语言从目标网站通过HTTP Get目标HTML文档的方式可以做得很快,但是,很多网页内容又难于抓取到。
网站登录有很多方式
网站登录有很多方式:
无法处理的情形:HTTP登录有效期是可控制的,上面的信息提取方案都是假设登录的有效期是一个会话(session)或者比这更长的时间,例如,只要浏览器不关闭就总有效,或者多少天有效,甚至长期有效。但是,如果有效期很短,只对当前网页有效,那么每访问一个网页就得登录一次,此时DataScraper就没法自动提取了。当然,实际网络上几乎没有这种网页,因为用户体验很差。
谢谢,的确,MetaSeeker
谢谢,的确,MetaSeeker并不关心用了哪种登录方式,一视同仁。