抓取第二页时网页还没有加载完就停止抓取了,有xml文件输出,但第二页抓到的内容是空的(第一页有内容)。测试了一下,在滚屏速度设置为3以下时可以正常抓取,但如果速度高于3或者不滚屏,就会出现上述情况。
因为页数比较多,所以希望有一个不用减慢滚屏也能全部抓取的方法。



举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-8-7 15:06

wangyong 版主 发表于 2017-8-7 15:06:03 | 显示全部楼层
自动滚屏就是专门为抓取动态网页开发的功能

动态网页不自动滚屏数据不直接展示,只有打开滚屏功能,抓取时自动滚动页面才能成功抓取数据
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:41