想要爬去大V的微博,希望爬最近一年他发的全部微博,可以实现吗
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-10-19 15:51

沙发
Fuller 管理员 发表于 2016-10-19 15:25:19 | 只看该作者
爬大V的微博没有问题,虽然有很多页,即使翻页断了也可以从断处接上爬,因为每个分页都有独立的页码。不像爬评论,翻页断了就要从头开始。

爬微博有现成的工具:集微库工具箱:http://www.gooseeker.com/land/weibo.html
举报 使用道具
板凳
xandy 论坛元老 发表于 2016-10-19 15:51:00 | 只看该作者
本帖最后由 xandy 于 2016-10-19 15:59 编辑

如果博主发的微博很多,会有很多分页,很容易因为网速原因采集中断,那么,查看采集到的结果,估计翻到了多少页码,可以构造一个新网址,就是从中断处开始的网页。

一、如果你使用集微库-微博采集工具箱进行采集
微博博主主页工具页面内,再次通过采集任务的形式将链接添加进去,最好换一个博主名字,比如,这个网址最后的参数就含有页码信息:
http://weibo.com/tongjiunivlibrary?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=41

更多使用微博采集工具箱碰到的问题,请点击这里:【集微库】微博采集工具箱使用常见问题

二、如果使用规则来采集数据
那么就将断掉处的链接以线索的形式添加到规则里,开启DS打数机后,就会从断掉的页面开始抓取。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-18 12:18