21#
wangyong 版主 发表于 2019-7-2 17:16:58 | 只看该作者
wangyong 发表于 2019-7-2 17:15
新浪不允许一次性查看万博主的所有微博,需要通过细分不同年月的链接来完成所有的爬取
例如这个链接,可 ...

可以通过微博工具的微博博主主页工具来爬取
https://www.gooseeker.com/res/softdetail_3.html

举报 使用道具
22#
lydia_rou 新手上路 发表于 2020-5-29 23:36:28 | 只看该作者
请问是采集的博主主页的热门微博吗?
举报 使用道具
23#
Fuller 管理员 发表于 2020-5-30 09:09:54 | 只看该作者
lydia_rou 发表于 2020-5-29 23:36
请问是采集的博主主页的热门微博吗?

使用微博采集工具箱中的微博博主主页内容采集:https://www.gooseeker.com/land/weibo.html

里面有3个选项,把热门微博的网址加进去,选择第二个选项,就可以专门采集热门微博


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
24#
lydia_rou 新手上路 发表于 2020-5-31 10:18:17 | 只看该作者
感谢回复!请问有什么工具可以批量得到博主热门微博页面的网址吗?
举报 使用道具
25#
lydia_rou 新手上路 发表于 2020-5-31 10:19:06 | 只看该作者
Fuller 发表于 2020-5-30 09:09
使用微博采集工具箱中的微博博主主页内容采集:https://www.gooseeker.com/land/weibo.html

里面有3个选 ...

感谢回复!请问有什么工具可以批量得到博主热门微博页面的网址吗?

举报 使用道具
26#
Fuller 管理员 发表于 2020-5-31 10:23:12 | 只看该作者
lydia_rou 发表于 2020-5-31 10:18
感谢回复!请问有什么工具可以批量得到博主热门微博页面的网址吗?
...

就用我上一个截图展示的微博博主主页内容采集工具:https://www.gooseeker.com/res/softdetail_3.html
举报 使用道具
27#
lydia_rou 新手上路 发表于 2020-5-31 10:46:18 | 只看该作者
Fuller 发表于 2020-5-31 10:23
就用我上一个截图展示的微博博主主页内容采集工具:https://www.gooseeker.com/res/softdetail_3.html
...

我的意思是批量采集博主主页热门微博需要输入热门微博页的网址,怎样可以批量获得这些网址呢?这个采集工具的前提是得知道网址TAT
举报 使用道具
28#
Fuller 管理员 发表于 2020-5-31 12:08:04 | 只看该作者
lydia_rou 发表于 2020-5-31 10:46
我的意思是批量采集博主主页热门微博需要输入热门微博页的网址,怎样可以批量获得这些网址呢?这个采集工 ...

你应该已经有了微博博主的id了吧,看这个例子:
  1. https://weibo.com/chemyhuang?profile_ftype=1&is_hot=1#_0
复制代码
weibo.com后面紧接着是id,参数部分is_hot=1表示热门微博。根据这个规律,在excel中把网址构造出来
举报 使用道具
29#
lydia_rou 新手上路 发表于 2020-5-31 12:41:43 | 只看该作者
Fuller 发表于 2020-5-31 12:08
你应该已经有了微博博主的id了吧,看这个例子:weibo.com后面紧接着是id,参数部分is_hot=1表示热门微博 ...

是的这样尝试过,有一些博主的网页是对的但是有一些这样构造不对,批量采集的时候不对的那些网站自动跳回了我的个人主页,然后采集了一堆我的主页上的东西。。。。
举报 使用道具
30#
lydia_rou 新手上路 发表于 2020-5-31 12:45:04 | 只看该作者
lydia_rou 发表于 2020-5-31 12:41
是的这样尝试过,有一些博主的网页是对的但是有一些这样构造不对,批量采集的时候不对的那些网站自动跳回 ...

我重新尝试了一下发现之前好像那个问号没有用英文格式输入。。。之前白花积分了555
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 22:33