先抓取某一关键词的相关微博,从中选取被转发量较多的用户,再对这些用户进行微博评论转发内容的层级抓取,即二级转发评论、三级转发评论等多级用户的信息,得到最后的抓取数据,建立用户的关系矩阵。
希望各位能指点一下,我该怎么抓取?先谢过~
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-10-12 15:15

Fuller 管理员 发表于 2016-12-10 10:34:53 | 显示全部楼层
新浪微博采集工具箱,多个工具联合在一起抓
gongjuxiang.png
举报 使用道具
Fuller 管理员 发表于 2016-12-10 10:37:26 | 显示全部楼层
你这个抓取量会很大,抓取的时候不会根据转发量做筛选的,所以要用关键词搜索工具把关键词相关的微博都抓下来,然后根据转发量排序,把转发量大的微博网址导入到微博转发评论工具中,分别抓取转发和评论,然后根据需要抓取评论者 信息
举报 使用道具
skyler 初级会员 发表于 2016-12-10 14:28:13 | 显示全部楼层
Fuller 发表于 2016-12-10 10:37
你这个抓取量会很大,抓取的时候不会根据转发量做筛选的,所以要用关键词搜索工具把关键词相关的微博都抓下 ...

那我要是这样抓取可以吗:根据关键词进行时间分段抓取,确定不同舆情发展阶段中转发量和评论量较多的用户,然后对这些用户进行相应时间段内的层级抓取,以获得不同时间段内微博用户对事件的转发评论等信息。这样做的话,是不是数据量会少点?
举报 使用道具
Fuller 管理员 发表于 2016-12-10 15:18:44 | 显示全部楼层
skyler 发表于 2016-12-10 14:28
那我要是这样抓取可以吗:根据关键词进行时间分段抓取,确定不同舆情发展阶段中转发量和评论量较多的用户 ...

是的,限定一下时间会减少抓取量
举报 使用道具
chengyiling 初级会员 发表于 2017-10-12 14:19:38 | 显示全部楼层
skyler 发表于 2016-12-10 14:28
那我要是这样抓取可以吗:根据关键词进行时间分段抓取,确定不同舆情发展阶段中转发量和评论量较多的用户 ...

您好,我现在也想实现微博评论和转发的全部信息抓取,包括二级三级等等的评论和转发,和您的情况一致,请问您实现了吗?怎么做啊,导师催着让交论文,真的好着急。。。。。谢谢!
举报 使用道具
ali369 初级会员 发表于 2017-10-12 14:27:26 | 显示全部楼层
chengyiling 发表于 2017-10-12 14:19
您好,我现在也想实现微博评论和转发的全部信息抓取,包括二级三级等等的评论和转发,和您的情况一致,请 ...

好像只要能抓下那些有转发和评论的链接网址应该就可以这么做,不过数据量比较大
举报 使用道具
chengyiling 初级会员 发表于 2017-10-12 15:15:58 | 显示全部楼层
ali369 发表于 2017-10-12 14:27
好像只要能抓下那些有转发和评论的链接网址应该就可以这么做,不过数据量比较大
...

就是多次抓取应该就可以实现吧?
http://www.gooseeker.com/doc/for ... amp;page=1#pid27519
您看一下这个帖子的说法正确吗?

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:44