https://www.indiegogo.com/projec ... -audio--2#/comments
如上网址给出的网页,想要抓到里面所有的评论和回复,最后得到评论数和回复数各为多少,并且区分发起人评论数多少其他人评论数多少以及发起人回复数多少和其他人回复数多少,做交互信息的分析,这种要怎么抓取,怎么数个数?

举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2018-4-12 10:25

沙发
Fuller 管理员 发表于 2018-3-10 09:51:06 | 只看该作者
先把评论都抓下来,放在excel中,用excel的统计功能做分析
举报 使用道具
板凳
longouxiu 禁止发言 发表于 2018-3-17 16:08:09 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
举报 使用道具
地板
淼淼 初级会员 发表于 2018-4-1 16:40:53 | 只看该作者
Fuller 发表于 2018-3-10 09:51
先把评论都抓下来,放在excel中,用excel的统计功能做分析

你好,这个评论啊,更新什么的我已经尝试过很多次了,但是在翻页问题上面,明明按照教程做,却始终不成功,例如说更新吧,我要抓更新人、时间、内容,但是总是不能翻页,抓取的网址是这个https://www.indiegogo.com/projec ... 821826#/updates/all,我按照翻页教程做的是图片这样,就是把see more……的那里设置翻页,但是始终不成功,还是只能抓到没翻页已经展示的更新,请问是什么问题?

%HN%HCWB__S3Q{5X7IC[$8U.png (121.26 KB, 下载次数: 907)

%HN%HCWB__S3Q{5X7IC[$8U.png
举报 使用道具
5#
Fuller 管理员 发表于 2018-4-1 16:51:37 | 只看该作者
淼淼 发表于 2018-4-1 16:40
你好,这个评论啊,更新什么的我已经尝试过很多次了,但是在翻页问题上面,明明按照教程做,却始终不成功 ...

根据你的截图看,See More Updates作为翻页记号,但是,有两个问题
1,See More Updates前面有很多空格,应该把空格删除,而且不要勾选“全匹配”
2,网页上是SEE MORE UPDATES,你确定选择的记号是正确的?

主题名是什么?
举报 使用道具
6#
淼淼 初级会员 发表于 2018-4-1 19:39:18 | 只看该作者
Fuller 发表于 2018-4-1 16:51
根据你的截图看,See More Updates作为翻页记号,但是,有两个问题
1,See More Updates前面有很多空格, ...

那个空格我刚刚删了一次还是不行,关于记号的选择我确定是对的,定位到它的时候就是会变小写,主题名是“updates试抓”,我刚刚改过了还是不行
举报 使用道具
7#
Fuller 管理员 发表于 2018-4-1 21:33:03 | 只看该作者
淼淼 发表于 2018-4-1 19:39
那个空格我刚刚删了一次还是不行,关于记号的选择我确定是对的,定位到它的时候就是会变小写,主题名是“ ...

没有搜到这个主题
举报 使用道具
8#
淼淼 初级会员 发表于 2018-4-2 19:05:08 | 只看该作者
Fuller 发表于 2018-4-1 21:33
没有搜到这个主题

没有发布的主题,又尝试了很多次发现都不行
举报 使用道具
9#
Fuller 管理员 发表于 2018-4-2 19:29:27 | 只看该作者
淼淼 发表于 2018-4-2 19:05
没有发布的主题,又尝试了很多次发现都不行

你把你定义的规则存好了,然后告诉我主题名,我加载测试一下
举报 使用道具
10#
淼淼 初级会员 发表于 2018-4-4 16:52:38 | 只看该作者
Fuller 发表于 2018-4-2 19:29
你把你定义的规则存好了,然后告诉我主题名,我加载测试一下

就叫“updates试抓”,我已经存好了,你看一下吧,定位选项我也改过试过了,也试过用连续动作,都不成功

规则.png (96.97 KB, 下载次数: 926)

规则.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 08:56