采集博主主页，不能翻页到底？

HITB123

我正在采集人民日报的博文，按月采集的，把每个月的主页链接添加到博主主页工具，但是总是不能采集完，比如2020年12月有27页博文，采集了10页就结束了。怎样采能采集完？

maomao · 发表于 2021-1-29 18:07:09

本帖最后由 maomao 于 2021-1-29 18:08 编辑

最近微博网站不太稳定，采集微博，连续翻页次数比较多的情况下，会断掉。碰到这种情况，可以把断掉的那一页链接再添加到博主主页工具，会接着继续翻页采集。

怎么找到断掉那一页的链接？打包下载下来的数据中，有个realpath字段，就是每一页的链接：

比如第12页的链接是
https://weibo.com/rmrb?is_all=1&stat_date=202012&page=12#feedtop

如果在12页断掉，把上面的链接添加到博主主页工具，继续采集。

Fuller · 发表于 2021-1-29 18:14:57

介绍另一个方法，在规则中指定重新加载标志，一旦遇到，就重新加载一次。具体参看《利用重新加载防止采集微博博主消息列表中断》。这个方法适合自己定义规则的时候使用。在规则中规定重新加载可能不如直接使用realpath易于操作，仅作为一个备选方案

采集博主主页，不能翻页到底？

共 2 个关于本帖的回复最后回复于 2021-1-29 18:14

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集博主主页，不能翻页到底？

共 2 个关于本帖的回复 最后回复于 2021-1-29 18:14

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2021-1-29 18:14