爬取微博博主主页内容的时候,我设置了上千条线索,但是后来发现,只有第一条线索是正常爬取的,后面的线索都没有翻页,还有就是每次重新加载规则的时候下一页节点总是出问题,这是什么原因啊?
主题名,四月份微博内容爬取
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-5-13 12:49

沙发
数据集 高级会员 发表于 2017-5-13 11:21:01 | 只看该作者
把滚屏次数设置的大一些, 比如30, 让页面加载的时间长一些
另外网速快有利于抓取到更完整的信息
举报 使用道具
板凳
数据集 高级会员 发表于 2017-5-13 11:23:47 | 只看该作者
重新加载规则的时候, 可以在显示页面内容的浏览器窗口一直往下滚屏, 直到”下一页“出现, 再进行”后续分析“
我刚才加载你的规则, 没有报错
举报 使用道具
地板
Ursula 初级会员 发表于 2017-5-13 12:30:35 | 只看该作者
数据集 发表于 2017-5-13 11:23
重新加载规则的时候, 可以在显示页面内容的浏览器窗口一直往下滚屏, 直到”下一页“出现, 再进行”后续 ...

好的,谢谢,我试试
举报 使用道具
5#
Ursula 初级会员 发表于 2017-5-13 12:35:43 | 只看该作者
数据集 发表于 2017-5-13 11:23
重新加载规则的时候, 可以在显示页面内容的浏览器窗口一直往下滚屏, 直到”下一页“出现, 再进行”后续 ...

总是显示超时(匹配失败)怎么回事呢?
举报 使用道具
6#
shenzhenwan10 金牌会员 发表于 2017-5-13 12:49:55 | 只看该作者
Ursula 发表于 2017-5-13 12:35
总是显示超时(匹配失败)怎么回事呢?

爬取的时候,你观察一下DS的浏览器窗口,微博页面有没有正常显示, 如果没有显示或只是加载一部分,则可能是微博的反扒措施,你需要清缓存,换ip,重启浏览器后继续

如果微博页面显示正常,那可能是你的规则有些页面不匹配,或者勾选了不存在的”关键内容“, 你需要调整你的规则。具体步骤可以到教程版块搜索”匹配失败“
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 18:57