1431#
Fuller 管理员 发表于 2023-4-6 14:34:16 | 只看该作者

采集了博主主页后,还需要继续采集博文展开,看这个帖子的第6步。
https://www.gooseeker.com/doc/article-565-1.html
举报 使用道具
1432#
nino23 新手上路 发表于 2023-4-22 00:47:12 | 只看该作者
微博搜索关键词采集设置的三年内数据,采集导出来的数据只有半年的
举报 使用道具
1433#
Fuller 管理员 发表于 2023-4-22 08:45:02 | 只看该作者
nino23 发表于 2023-4-22 00:47
微博搜索关键词采集设置的三年内数据,采集导出来的数据只有半年的

微博翻页数有限制,只能翻页看50页,为了能看更多,搜索的时候要设置细分时间段,最细1个小时。不过,设置之前你得仔细估计一下:需要多细?不能太细,不然要采集十分十分久,如果是3年,细分成一小时,一天就有24小时,这样就会产生大量网址,要采集很久的。如果微博数量不是很多,细分时间段可以粗一些,只要这个时间段内的微博不超过50页就不会漏。

能设置细分条件的微博采集工具是这个:https://www.gooseeker.com/res/softdetail_4.html
举报 使用道具
1434#
khalilko 新手上路 发表于 2023-4-23 19:32:32 | 只看该作者
为什么微博转发1.5万条 转发采集只出了448条 发布时间截止到2022/6/23
举报 使用道具
1435#
neumman 新手上路 发表于 2023-5-20 13:49:11 | 只看该作者
Fuller 发表于 2016-3-1 15:30
一个小技巧,如果一个博主的微博特别多,采集过程中很容易中断,可以从中断的地方接着采。
看上图,余承东 ...

怎么从中断的地方继续?我的网页不会跳转,每次中断了只能从头来。
举报 使用道具
1436#
Fuller 管理员 发表于 2023-5-20 16:36:18 | 只看该作者
neumman 发表于 2023-5-20 13:49
怎么从中断的地方继续?我的网页不会跳转,每次中断了只能从头来。

微博从去年改版了,变成了瀑布流网页,不是一页页的翻页,所以中断了,只能从头再来。微博cn端的博主主页还是翻页形式,可以采集更多,中断了,也可以把中断处的网页链接添加到微博博主主页数据采集_cn端,继续采集
举报 使用道具
1437#
hualanyaxue 初级会员 发表于 2023-5-28 16:32:17 | 只看该作者
新版微博界面是瀑布流,不能一下子爬取完,用cn端的爬取某个微博下的评论,也只能爬取50页,但是总数是大于50页的比如我找的微博是显示118页,但是只能爬到50页,50页之后就看不到了。而cn端也没办法限定时间条件啊,而且他的不同页码的链接只是结尾的page数不同,就算从51开始,也是啥也没有怎么办
举报 使用道具
1438#
maomao 论坛元老 发表于 2023-5-29 10:09:39 | 只看该作者
hualanyaxue 发表于 2023-5-28 16:32
新版微博界面是瀑布流,不能一下子爬取完,用cn端的爬取某个微博下的评论,也只能爬取50页,但是总数是大于 ...

微博评论是有这样的限制。如果网速和计算机处理速度都不错,可以尝试在网页端采集瀑布流网页,也许会采集更多。
举报 使用道具
1439#
hualanyaxue 初级会员 发表于 2023-5-29 10:16:30 | 只看该作者
不行的,昨天试了试,瀑布页只能爬取到微博博文,评论区不做样例映射还能爬取到十个左右,做了样例映射就爬不到了,仔细看了看网页的代码页,它应该是有反爬保护,没法爬。
举报 使用道具
1440#
1394334297 新手上路 发表于 2023-7-27 20:51:01 | 只看该作者
采集到是能采集出来,但是私信没啥卵用
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-14 15:04