我用另一款采集其,我在抓取这个网站数据时http://www.huya.com/l,设置了ajax自动滚动,但是采集时却无法自动采集,是因为是全瀑布流网站吗?请问怎么解决呢?谢谢!
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-12-22 22:52

沙发
Fuller 管理员 发表于 2015-12-22 22:52:23 | 只看该作者
真正的瀑布流网页是没有底的,或者说很长,当往下滚屏的时候,上面的内容就从网页上删除了,如果不滚屏,下面的内容又不会加载上来。普通的网页采集器软件往往顾了上头顾不了下头,而另一些不支持ajax的网页采集器那就更无计可施了。

GooSeeker网络爬虫推出了连续滚屏功能,就像照相机的全景拍摄功能,一节一节地记录信息。连续滚屏是众多连续动作中的一个,详细参看:http://www.gooseeker.com/doc/article-141-1.html

注意要与GooSeeker的自动滚屏功能进行区别,自动滚屏是也用于抓取长网页,但是还不算长,比如,京东商品的详情页,虽然有很多图文,但是能滚动到底,而且也不会出现顾头不顾尾的情形,那么用自动滚屏滚到底一次性抓下来。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 00:31