我用另一款采集其,我在抓取这个网站数据时http://www.huya.com/l,设置了ajax自动滚动,但是采集时却无法自动采集,是因为是全瀑布流网站吗?请问怎么解决呢?谢谢!
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-12-22 22:52

沙发
Fuller 管理员 发表于 2015-12-22 22:52:23 | 只看该作者
真正的瀑布流网页是没有底的,或者说很长,当往下滚屏的时候,上面的内容就从网页上删除了,如果不滚屏,下面的内容又不会加载上来。普通的网页采集器软件往往顾了上头顾不了下头,而另一些不支持ajax的网页采集器那就更无计可施了。

GooSeeker网络爬虫推出了连续滚屏功能,就像照相机的全景拍摄功能,一节一节地记录信息。连续滚屏是众多连续动作中的一个,详细参看:http://www.gooseeker.com/doc/article-141-1.html

注意要与GooSeeker的自动滚屏功能进行区别,自动滚屏是也用于抓取长网页,但是还不算长,比如,京东商品的详情页,虽然有很多图文,但是能滚动到底,而且也不会出现顾头不顾尾的情形,那么用自动滚屏滚到底一次性抓下来。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 14:44