|
真正的瀑布流网页是没有底的,或者说很长,当往下滚屏的时候,上面的内容就从网页上删除了,如果不滚屏,下面的内容又不会加载上来。普通的网页采集器软件往往顾了上头顾不了下头,而另一些不支持ajax的网页采集器那就更无计可施了。
GooSeeker网络爬虫推出了连续滚屏功能,就像照相机的全景拍摄功能,一节一节地记录信息。连续滚屏是众多连续动作中的一个,详细参看:http://www.gooseeker.com/doc/article-141-1.html
注意要与GooSeeker的自动滚屏功能进行区别,自动滚屏是也用于抓取长网页,但是还不算长,比如,京东商品的详情页,虽然有很多图文,但是能滚动到底,而且也不会出现顾头不顾尾的情形,那么用自动滚屏滚到底一次性抓下来。
|
|
共 1 个关于本帖的回复 最后回复于 2015-12-22 22:52