爬取微博博主主页内容的时候,我设置了上千条线索,但是后来发现,只有第一条线索是正常爬取的,后面的线索都没有翻页,还有就是每次重新加载规则的时候下一页节点总是出问题,这是什么原因啊?
主题名,四月份微博内容爬取
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-5-13 12:49

沙发
数据集 高级会员 发表于 2017-5-13 11:21:01 | 只看该作者
把滚屏次数设置的大一些, 比如30, 让页面加载的时间长一些
另外网速快有利于抓取到更完整的信息
举报 使用道具
板凳
数据集 高级会员 发表于 2017-5-13 11:23:47 | 只看该作者
重新加载规则的时候, 可以在显示页面内容的浏览器窗口一直往下滚屏, 直到”下一页“出现, 再进行”后续分析“
我刚才加载你的规则, 没有报错
举报 使用道具
地板
Ursula 初级会员 发表于 2017-5-13 12:30:35 | 只看该作者
数据集 发表于 2017-5-13 11:23
重新加载规则的时候, 可以在显示页面内容的浏览器窗口一直往下滚屏, 直到”下一页“出现, 再进行”后续 ...

好的,谢谢,我试试
举报 使用道具
5#
Ursula 初级会员 发表于 2017-5-13 12:35:43 | 只看该作者
数据集 发表于 2017-5-13 11:23
重新加载规则的时候, 可以在显示页面内容的浏览器窗口一直往下滚屏, 直到”下一页“出现, 再进行”后续 ...

总是显示超时(匹配失败)怎么回事呢?
举报 使用道具
6#
shenzhenwan10 金牌会员 发表于 2017-5-13 12:49:55 | 只看该作者
Ursula 发表于 2017-5-13 12:35
总是显示超时(匹配失败)怎么回事呢?

爬取的时候,你观察一下DS的浏览器窗口,微博页面有没有正常显示, 如果没有显示或只是加载一部分,则可能是微博的反扒措施,你需要清缓存,换ip,重启浏览器后继续

如果微博页面显示正常,那可能是你的规则有些页面不匹配,或者勾选了不存在的”关键内容“, 你需要调整你的规则。具体步骤可以到教程版块搜索”匹配失败“
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-1 10:34