34 77839

新浪微博数据采集攻略

ym 于 2016-12-20 11:18 发表 [复制链接]
Fuller 管理员 发表于 2020-6-22 22:57:32 | 显示全部楼层
低频词汇 发表于 2020-6-22 22:37
怎么爬取被@的数据

把一条微博的所有转发都采集下来,导出数据以后,在excel中根据@符号就行查找。
举报 使用道具
laiyongling2017 中级会员 发表于 2020-10-7 14:40:11 | 显示全部楼层
我如果想爬取某个关键词某个时间段内转发最多的微博,怎么爬取,怎么排序?
举报 使用道具
Fuller 管理员 发表于 2020-10-7 15:55:44 | 显示全部楼层
laiyongling2017 发表于 2020-10-7 14:40
我如果想爬取某个关键词某个时间段内转发最多的微博,怎么爬取,怎么排序? ...

没法排序,只能把这个时间段内的所有微博爬下来,导出数据以后,在excel中,根据转发数排序
举报 使用道具
zhuoning 新手上路 发表于 2020-10-16 16:55:44 | 显示全部楼层
爬取一个微博下面的评论区,数据应该有10万+,可是为啥只能爬取到84条嘞..求助~
举报 使用道具
Fuller 管理员 发表于 2020-10-16 17:03:29 | 显示全部楼层
zhuoning 发表于 2020-10-16 16:55
爬取一个微博下面的评论区,数据应该有10万+,可是为啥只能爬取到84条嘞..求助~ ...

一定要登录了以后再爬,另外,爬虫运行的时候,不要缩小窗口。还有就是要手工打开这个微博看看,翻着看看能看到的评论数量是不是只有84条。有些微博虽然有很多评论,但是不让看,那么也采集不下来。

用集搜客新出的数据管家软件采集微博应该更方便一些:https://www.gooseeker.com/pro/product_note_firefox.html
举报 使用道具
Ly20201109 初级会员 发表于 2020-12-17 22:37:12 | 显示全部楼层
怎么爬取微博转发者之间的关系啊?不是转发数量
举报 使用道具
Fuller 管理员 发表于 2020-12-18 09:02:39 | 显示全部楼层
Ly20201109 发表于 2020-12-17 22:37
怎么爬取微博转发者之间的关系啊?不是转发数量

把某一条微博下的所有转发抓下来,就得到了这条微博的作者跟第一层转发者的关系。然后把转发微博的网址拿出来,再采集他的转发,就得到了第二层转发关系。一层层做,最后没有转发的了,就完成了
举报 使用道具
Ly20201109 初级会员 发表于 2020-12-18 11:34:50 | 显示全部楼层
Fuller 发表于 2020-12-18 09:02
把某一条微博下的所有转发抓下来,就得到了这条微博的作者跟第一层转发者的关系。然后把转发微博的网址拿 ...

只能自己一层层手动复制网址吗?不可以自动抓取吗?
举报 使用道具
Fuller 管理员 发表于 2020-12-18 11:45:21 | 显示全部楼层
Ly20201109 发表于 2020-12-18 11:34
只能自己一层层手动复制网址吗?不可以自动抓取吗?

完全自动的要定制开发。手动的工作量也不太大,上一轮采集结果导出成excel格式,把excel表中的网址一次选中,拷贝到下一轮的任务中。

数据采集量很大的时候,可以把定制开发任务委托给我们做
举报 使用道具
freya_614 新手上路 发表于 2021-6-24 06:22:55 | 显示全部楼层
怎么爬@相关人的数据呢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 01:53