集搜客GooSeeker网络爬虫

标题: 怎样把一个博主发的博文都采集下来? [打印本页]

作者: Monday33    时间: 2023-2-3 10:08
标题: 怎样把一个博主发的博文都采集下来?
微博改版了,博主主页变成瀑布流了,不能把博主发的博文都采集下来。有解决方法吗?

作者: maomao    时间: 2023-2-3 10:21
微博cn端的博主主页不是瀑布流,是分页的,类似这样的网页https://weibo.cn/2803301701。集搜客新上架了微博cn端的采集工具,可以把博主发的博文都采集下来。

采集之前,也要打开微博cn端,并登陆一个微博账号。

作者: maomao    时间: 2023-2-3 10:23
cn端的博主主页链接可以根据网页端的链接构造。类似这样:
网页端:https://weibo.com/u/2803301701
cn端:https://weibo.cn/2803301701


作者: maomao    时间: 2023-2-3 10:36
有的博文比较长,需要点击全文展开。可以先用微博博主主页数据采集_cn端批量采集到博文链接。[attach]15729[/attach]




然后把博文链接批量复制添加到博文展开全文采集_cn端,批量采集到展开的长博文。
[attach]15730[/attach]

作者: Fuller    时间: 2023-3-9 17:25
采集到的博文链接有很多用途,除了楼上说的,采集长博文的全文。
还可以把博文链接批量拷贝到微博评论采集_cn端快捷工具,采集博文的评论。在cn端,博文的评论也是分页的,所以能采集到所有的评论。

[attach]15749[/attach]

作者: Fuller    时间: 2023-3-9 17:40
采集到的博文链接,除了楼上的用途,还可以添加到微博转发采集_cn端快捷采集工具,采集到这条博文所有的转发信息。

观察下面两条链接的规律,可以很方便的在excel表里改造链接。

微博博主主页数据采集_cn端采集到的链接:https://weibo.cn/comment/MwjP6iohv?&uid=7010131150&#cmtfrm

微博转发采集_cn端快捷工具需要的链接:   https://weibo.cn/repost/MwjP6iohv?uid=7010131150

作者: Fuller    时间: 2023-11-23 11:01
总结一下:到目前为止,微博cn端的快捷采集工具也很齐全了,所以,微博cn端和微博普通网页端各有一套快捷采集工具,大家使用的时候,根据网址不同分别选用。weibo.cn是cn端的,weibo.com是普通网页端的。因为微博cn端采集工具也很齐全了,大部分情况下就不用像上面说的将网址转换成普通网页端的。

[attach]15992[/attach]

作者: fishhaichun    时间: 2024-6-9 06:29
到微博转发采集_cn端试了一下,11476页的数据全部收集完,显示正常,但只收集到8000多条数据,这个比例,漏抓率是不是过于高啊
作者: Fuller    时间: 2024-6-9 08:20
fishhaichun 发表于 2024-6-9 06:29
到微博转发采集_cn端试了一下,11476页的数据全部收集完,显示正常,但只收集到8000多条数据,这个比例,漏 ...

数据有一列是fullpath字段,fullpath里有页码信息,类似这样:
https://weibo.cn/repost/Oi60D9Fg ... &gid=10001&page=12

把最后一行的fullpath在浏览器里打开看看,是不是最后一页,如果不是,可以把这个fullpath添加到快捷工具中继续采集。



作者: lnn9568    时间: 2024-12-10 17:06
怎么设置时间段啊,就是从2016年到2024年的全部,2016年之前的就不要了
作者: Fuller    时间: 2024-12-10 17:51
lnn9568 发表于 2024-12-10 17:06
怎么设置时间段啊,就是从2016年到2024年的全部,2016年之前的就不要了

添加链接后,设置页数,比如到2016年的时候,总共是多少页。

作者: lnn9568    时间: 2024-12-10 19:15
Fuller 发表于 2024-12-10 17:51
添加链接后,设置页数,比如到2016年的时候,总共是多少页。

但是只能设置1 20 50 100 和全部 不能自定义

作者: Fuller    时间: 2024-12-10 19:46
对,只能取个近似的页数。如果超出100页,把第100页的链接添加到快捷工具中,继续采集
作者: lnn9568    时间: 2024-12-12 10:56
Fuller 发表于 2024-12-10 19:46
对,只能取个近似的页数。如果超出100页,把第100页的链接添加到快捷工具中,继续采集 ...

想问问,那怎么采集每条微博内容所附带的图片啊?要自己每条内容去找吗

作者: Fuller    时间: 2024-12-12 14:51
lnn9568 发表于 2024-12-12 10:56
想问问,那怎么采集每条微博内容所附带的图片啊?要自己每条内容去找吗
...

可以采集图片,按教程做采集规则。

作者: lnn9568    时间: 2024-12-12 22:01
Fuller 发表于 2024-12-12 14:51
可以采集图片,按教程做采集规则。

没看到教程哎,可以指明方向吗

作者: Fuller    时间: 2024-12-13 12:10
lnn9568 发表于 2024-12-12 22:01
没看到教程哎,可以指明方向吗

点击上面的绿色字体,会跳转到相应教程

作者: bjzhaoyan    时间: 2025-2-5 13:29
lnn9568 发表于 2024-12-10 17:06
怎么设置时间段啊,就是从2016年到2024年的全部,2016年之前的就不要了

可以参考这个,高级搜索:https://weibo.com/u/1821944837?is_video=1&start_time=1704038400&end_time=1735660800





欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/) Powered by Discuz! X3.2