1.请问用微博工具箱抓取下来的评论和转发的数据怎么看啊,就是怎么分辨是谁转发谁的,谁评论谁的。附件1中是您方提供的转发样例,附件2是我抓取的评论的数据。请问为什么会出现重复呢?
2.假设A发布了一个原创微博,B转发并评论了,C又转发评论了B的微博,我想把ABC的所有的转发和评论的信息都抓下来,请问怎么操作啊。我现在的进度是把A的微博抓取下来了,然后又把博文独立网址导入,然后就抓下来评论和转发的信息了?接下来我怎么做啊?

微信图片_20171011210140.png (25.01 KB, 下载次数: 1166)

转发

转发

微信图片_20171011210604.png (90.8 KB, 下载次数: 1000)

微信图片_20171011210604.png
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-10-12 14:09

沙发
Fuller 管理员 发表于 2017-10-11 22:51:27 | 只看该作者
谁转发谁的,要根据网址看。fullpath那个字段,说明这个微博是的。
举报 使用道具
板凳
Fuller 管理员 发表于 2017-10-11 22:58:34 | 只看该作者
我们这个抓取转发工具,没有考虑你想要的那种A-〉B-〉C情况。要实现你说的情况,必须多抓一个字段,可惜我们现在的这个工具没有抓这个字段



上图,我们只抓了这个时间,但是没有抓这个时间上的超链接,这个超链接就是B的博文网址,如果有了这个网址,就可以进入下面的页面,就能抓他的转发了



明天上班我问问研发,是否能加上这个字段的抓取
举报 使用道具
地板
chengyiling 初级会员 发表于 2017-10-12 08:52:16 | 只看该作者
Fuller 发表于 2017-10-11 22:58
我们这个抓取转发工具,没有考虑你想要的那种A-〉B-〉C情况。要实现你说的情况,必须多抓一个字段,可惜我 ...

十分感谢您的解答!问题1:1.评论抓取结果网址
这两个网址只有前半部分是对应的,我怎么把他们整理到同一个表格,看出各自的对应关系?我的目的是想看出是谁评论了谁的微博。
问题2:在转发的抓取结果里,又统计了转发数,我可不可以通过筛选将有转发的再找出来,然后按照之前的操作将线索导入到数据库中再抓转发的内容啊?但是我想问我要导入fullpath字段吗?需要对该字段进行改动吗?还是可以直接导入?
问题3:在评论的抓取结果里,又统计了回复数,我可不可以按照问题2的思路再抓取他的评论结果。

[size=14.6667px]我的目的想必您应该清楚了,就是找出转发和评论的所有用户的关系,到底谁转发了谁的,谁评论了谁的。
[size=14.6667px]谢谢。

微信图片_20171012084746.png (69.35 KB, 下载次数: 1032)

微信图片_20171012084746.png

评论.png (85.62 KB, 下载次数: 996)

评论.png
举报 使用道具
5#
umsung 高级会员 发表于 2017-10-12 09:43:13 | 只看该作者
1,根据网址是看不出谁评论了谁的微博,根据采集的结果可以看出评论人和评论内容,至于评论了谁的微博就要根据fullpath那个字段里面的网址。
2,统计的转发数可以通过excel筛选,将有转发的找出来,如果要实现你想要的那种A-〉B-〉C情况,就需要抓取每一个对当前微博进行转发或评论的人的链接,这就需要加字段。
举报 使用道具
6#
chengyiling 初级会员 发表于 2017-10-12 11:18:39 | 只看该作者
umsung 发表于 2017-10-12 09:43
1,根据网址是看不出谁评论了谁的微博,根据采集的结果可以看出评论人和评论内容,至于评论了谁的微博就要 ...

请问怎么添加字段啊?具体的操作麻烦您和我说一些,十分感谢。
举报 使用道具
7#
umsung 高级会员 发表于 2017-10-12 11:21:12 | 只看该作者
chengyiling 发表于 2017-10-12 11:18
请问怎么添加字段啊?具体的操作麻烦您和我说一些,十分感谢。

微博工具是已经做好的规则 ,用户不能添加字段,要添加字段只能自己重新制作规则。
举报 使用道具
8#
chengyiling 初级会员 发表于 2017-10-12 11:29:33 | 只看该作者
umsung 发表于 2017-10-12 11:21
微博工具是已经做好的规则 ,用户不能添加字段,要添加字段只能自己重新制作规则。
...

那这个有教程吗?
我是问我可不可以这样操作啊。首先我将A的微博抓下来,然后将博文独立网址导入工具箱,这样就抓下来了B转发的信息和C评论的信息,然后我看到B又被其他人转发了,即他的转发数为呢,我之后再将B的fullpath导入微博工具箱,然后再抓对B的评论和转发;然后C评论的回复数不为0,我再将C的fullpath导入工具性,抓他的转发和评论的信息。以此类推,直到最后的转发数和回复数均为0,这样我是不是就可以抓到全部的转发和评论信息了?
举报 使用道具
9#
umsung 高级会员 发表于 2017-10-12 14:09:17 | 只看该作者
本帖最后由 umsung 于 2017-10-12 14:13 编辑
chengyiling 发表于 2017-10-12 11:29
那这个有教程吗?
我是问我可不可以这样操作啊。首先我将A的微博抓下来,然后将博文独立网址导入工具箱, ...

全部教程都在这里《教程》,比较难实现你所说的,因为数据量很大,你可以试试
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 15:45