1361#
dengyuxin 新手上路 发表于 2022-5-1 22:47:52 | 只看该作者
如果用关键词搜索,微博最小是一个小时作为一个时间粒度,一个小时内关于xx的话题量超过了50页,微博只显示前50页,就没有办法穷尽这段时间所有发出来的微博是吗,有其他办法可以穷尽吗
举报 使用道具
1362#
Fuller 管理员 发表于 2022-5-2 00:24:09 | 只看该作者
dengyuxin 发表于 2022-5-1 22:47
如果用关键词搜索,微博最小是一个小时作为一个时间粒度,一个小时内关于xx的话题量超过了50页,微博只显示 ...

超出50页就没办法采集更多了
举报 使用道具
1363#
dengyuxin 新手上路 发表于 2022-5-2 08:50:27 | 只看该作者
好的谢谢
举报 使用道具
1364#
dengyuxin 新手上路 发表于 2022-5-2 08:52:57 | 只看该作者
你好,请问微博关键词搜索采集中断后要怎样继续呢
举报 使用道具
1365#
gz51837844 管理员 发表于 2022-5-2 09:23:24 | 只看该作者
dengyuxin 发表于 2022-5-2 08:52
你好,请问微博关键词搜索采集中断后要怎样继续呢

就微博关键词搜索采集来说,无论是做了细分条件还是没有做细分,实际采集的该条件下的网址最多翻50页
你可以找到采集中断的关键词和(细分)条件,重新添加任务做采集
举报 使用道具
1366#
luguoqiang2020 中级会员 发表于 2022-5-22 01:18:53 | 只看该作者
使用“微博关键词搜索结果采集工具”,为什么出来的结果,所有的“博文独立网址”都是空的呢?
举报 使用道具
1367#
Fuller 管理员 发表于 2022-5-22 09:38:19 | 只看该作者
luguoqiang2020 发表于 2022-5-22 01:18
使用“微博关键词搜索结果采集工具”,为什么出来的结果,所有的“博文独立网址”都是空的呢? ...

首先要确保使用最新版的网络爬虫软件,现在叫数据管家了,采用了新技术,老版本可能会有数据采集不下来。新版本的下载网址:https://www.gooseeker.com/pro/gooseeker.html
其次,360等安全卫士软件会拦截爬虫软件的流量,甚至删除爬虫软件的程序,导致运行异常。因为爬虫软件产生的网络流量太大,360这些软件可能是来不及过滤就直接删程序文件了
举报 使用道具
1368#
7102118001 新手上路 发表于 2022-5-23 17:08:44 | 只看该作者
微博话题广场采集没有办法进行时间细分吗?只能采集到前50页的内容,想要采集更多怎么办?
举报 使用道具
1369#
Fuller 管理员 发表于 2022-5-23 17:51:25 | 只看该作者
7102118001 发表于 2022-5-23 17:08
微博话题广场采集没有办法进行时间细分吗?只能采集到前50页的内容,想要采集更多怎么办? ...

这个没办法细分了,只能采集最新的50页
举报 使用道具
1370#
Yangyang1999 新手上路 发表于 2022-5-25 13:05:20 | 只看该作者
xandy 发表于 2016-3-1 11:00
在使用过程中有问题可以在本帖留言~~~

请问是否可以获取微博数据的发布经纬度坐标?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-21 22:25