单纯采集一个用户的转发和评论信息,怎么操作啊?谢谢

1507993452(1).jpg (27 KB, 下载次数: 1201)

1507993452(1).jpg
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2020-12-24 10:30

来自 13#
wangyong 版主 发表于 2020-12-24 10:30:10 | 只看该作者
采集微博的评论、转发数据可以用集搜客微博工具箱中的微博评论、转发采集工具


将微博网址在软件中输入后启动采集,采集完成后就可以下载Excel格式的数据


如果是需要采集一个用户下每条微博的评论、转发信息,可以先使用工具箱中的博主主页采集工具,采集到一个微博账号下发布的微博数据,同时采集到了博文独立网址,根据博文独立网址就可以采集每条微博的转发、评论数据。

下载集搜客的数据管家:https://www.gooseeker.com/pro/gooseeker.html,从左侧工具条就可以进入微博工具箱

举报 使用道具
沙发
Fuller 管理员 发表于 2017-10-15 09:33:45 | 只看该作者
网页上隐藏掉的内容采集不到
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2017-10-15 09:34:03 | 只看该作者
你贴图的微博网址是什么, 可以贴出来我们分析下
通常情况是爬虫只能爬取对方网站页面显示出来的内容
举报 使用道具
地板
chengyiling 初级会员 发表于 2017-10-15 09:44:21 | 只看该作者
shenzhenwan10 发表于 2017-10-15 09:34
你贴图的微博网址是什么, 可以贴出来我们分析下
通常情况是爬虫只能爬取对方网站页面显示出来的内容 ...

http://weibo.com/2803301701/FmOs ... t#_rnd1508031972866
举报 使用道具
5#
chengyiling 初级会员 发表于 2017-10-15 09:45:37 | 只看该作者
shenzhenwan10 发表于 2017-10-15 09:34
你贴图的微博网址是什么, 可以贴出来我们分析下
通常情况是爬虫只能爬取对方网站页面显示出来的内容 ...

他的转发有15210条,但是我只能爬取1440条
举报 使用道具
6#
chengyiling 初级会员 发表于 2017-10-15 09:48:49 | 只看该作者
Fuller 发表于 2017-10-15 09:33
网页上隐藏掉的内容采集不到

那怎么办。。。就是抓取不到了吗?
举报 使用道具
7#
Fuller 管理员 发表于 2017-10-15 09:55:48 | 只看该作者
chengyiling 发表于 2017-10-15 09:48
那怎么办。。。就是抓取不到了吗?

有时候显示这个提示是因为网站太繁忙,过一段时间再翻页,就会有更多内容显示出来。

只要是网站不想显示出来的内容,就采集不到。

采集转发还有一个方法:搜索被转发博文中的关键字,用抓取搜索结果工具,能抓到很大参与转发的
举报 使用道具
8#
chengyiling 初级会员 发表于 2017-10-15 10:05:40 | 只看该作者
Fuller 发表于 2017-10-15 09:55
有时候显示这个提示是因为网站太繁忙,过一段时间再翻页,就会有更多内容显示出来。

只要是网站不想显示 ...

您能再具体说一下那个“关键字”的方法吗?
举报 使用道具
9#
chengyiling 初级会员 发表于 2017-10-15 10:09:03 | 只看该作者
Fuller 发表于 2017-10-15 09:55
有时候显示这个提示是因为网站太繁忙,过一段时间再翻页,就会有更多内容显示出来。

只要是网站不想显示 ...

请问是这个吗?

微信图片_20171015101038.png (6.33 KB, 下载次数: 1225)

微信图片_20171015101038.png
举报 使用道具
10#
Fuller 管理员 发表于 2017-10-15 11:37:55 | 只看该作者
chengyiling 发表于 2017-10-15 10:05
您能再具体说一下那个“关键字”的方法吗?

刚才试了一下,好像现在的搜索过滤功能已经不能这样搜集信息了。

原先设想是这样:

搜索红框里面的这串字,期望转发者(这个Mark23)也能搜到。现在不行了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 21:50