1281#
gz51837844 管理员 发表于 2021-9-2 15:08:06 | 只看该作者
爬取之前,有没有在数据管家上登录微博? 没登录的情况下显示的评论会比较少
你可以把你爬取的那条微博发出来我们测试下
举报 使用道具
1282#
louiselana 初级会员 发表于 2021-9-5 18:53:42 | 只看该作者
50页之后的爬取不到了。按照要求设置了爬取间隔,依然无法爬取50页以后的内容。
举报 使用道具
1283#
gz51837844 管理员 发表于 2021-9-5 19:52:34 | 只看该作者
louiselana 发表于 2021-9-5 18:53
50页之后的爬取不到了。按照要求设置了爬取间隔,依然无法爬取50页以后的内容。 ...

如果不设置时间间隔,那么一个关键词只搜索对应一条网址,最多只能爬取50页。
如果设置了爬取时间间隔,一个关键词搜索任务就自动生成多条网址,每条网址对应一个时间段,每条网址最多都可以爬取50页。
比如某天的微博,按每小时分段,就会爬取24条网址,理论上最大的爬取量是:50页*24=1200页。
举报 使用道具
1284#
aicici 初级会员 发表于 2021-9-12 16:46:33 | 只看该作者
小白,设置了时间段,只能爬取50页,看是要设置时间间隔才能爬取更多,如何设置时间间隔呢
举报 使用道具
1285#
gz51837844 管理员 发表于 2021-9-12 22:49:27 | 只看该作者
aicici 发表于 2021-9-12 16:46
小白,设置了时间段,只能爬取50页,看是要设置时间间隔才能爬取更多,如何设置时间间隔呢 ...

对于微博关键词搜索工具,比如我要采集关键词”新冠“, 9月1日至9月12日, 下图的设置, 会自动按每个小时去采集, 也就是理论上每小时最多可以采集50页



举报 使用道具
1286#
gz51837844 管理员 发表于 2021-9-12 22:51:06 | 只看该作者
举报 使用道具
1287#
陈陈不忧桑 金牌会员 发表于 2021-9-13 14:18:46 | 只看该作者
我想问一下怎么爬取分省的数据呀,微博把分省的功能关闭了
举报 使用道具
1288#
gz51837844 管理员 发表于 2021-9-13 14:55:42 | 只看该作者
陈陈不忧桑 发表于 2021-9-13 14:18
我想问一下怎么爬取分省的数据呀,微博把分省的功能关闭了

以前可以通过高级搜索, 或者在网址里添加省市参数, 来实现按地区爬取。现在微博关闭了这个功能,微博工具箱目前也不支持按省爬取
举报 使用道具
1289#
EstherZzzz 新手上路 发表于 2021-10-27 10:57:01 | 只看该作者
请问多个关键词的爬取怎么总是失败啊?用逗号隔开也没有用,只爬了第一个关键词,如果直接把两个词合在一起也不行
举报 使用道具
1290#
内容分析应用 金牌会员 发表于 2021-10-27 12:01:39 | 只看该作者
理论上讲, 添加多个关键词, 每个关键词会添加1条单独对应的爬取网址, 关键词之间是互不干扰的。
你爬取失败的是哪几个关键词? 发出来我们测试下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 10:47