快捷导航
如题,我访问新浪微博华为的主页,试图用gooseeker抓取华为发的博文下的用户评论,有的博文会有3000多条评论,我按照网上的一些教程,能抓出一些用户名,发布时间,评论内容,出现的问题有:
1.生成的XML文件出现迭代式的重复数据,文档中出现了几百个xml,抓到的数据量是1,1+1,1+1+1, 以此类推,也就是说,如果目标是3000条数据,打数机一次抓100条,那么生成的xml文件就会是100,200,300。。。最后才是含3000数据的xml。应该是定规则的时候除了某些问题,可惜我没找到具体的解决方案。
2.用户的评论内容,如果出现“真是太棒了/大拇指”这种文字+表情的文本,抓取内容为空,这是哪里出了问题?
3.我认为最关键的问题,微博评论页面是动态加载的,翻页这个功能我没有实现,基本是我点开多少内容,就只能抓到多少内容。
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2019-7-8 18:03

最爱王哥了 新手上路 发表于 2019-7-8 00:37:40 | 显示全部楼层
不知道有没有用GS抓取过微博评论的用户,请教你们一下使用的细节
举报 使用道具
Fuller 管理员 发表于 2019-7-8 08:37:38 | 显示全部楼层
最爱王哥了 发表于 2019-7-8 00:37
不知道有没有用GS抓取过微博评论的用户,请教你们一下使用的细节

如果使用了连续动作的点击加载更多,或者是滚屏加载更多,那么,因为加载更多以后,前一次加载在网页上的内容还在,所以,会在老内容基础上叠加新内容,就是你观察到的重复越来越多。

虽然旗舰版有清除老数据的功能,但是,不推荐使用,因为有时候清除了老数据,新数据不让加载。你可以在导出成excel中用标记重复数据后进行删除。

关于表情符号,分两种情况:
情况一:表情符号是一个图片,那种彩色的基本上就是图片,那样,需要采集规则将抓取内容设置成采集网页片段的类型,这样就会把一段html采集下来,里面会有img标签
情况二:表情符号是一个符号字符,一般不会是彩色的,跟普通文字一样。那么爬虫可以采集下来。在采集结果原始文件(XML格式的采集结果文件)中一定会有,但是导出成excel就没有,给过滤掉了。

你是自己做的采集规则还是用了微博采集工具箱中现成的工具?
举报 使用道具
Fuller 管理员 发表于 2019-7-8 18:03:12 | 显示全部楼层
可以用集搜客微博工具箱里的评论/转发工具,把博文网址添加进去,就可以采集博文的评论了。 微博评论工具.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 特征工程入门介绍
  • NLP文本情感分析入门
  • 机器学习算法入门介绍
  • 中文分词入门和分词工具汇总攻略
  • 自然语言处理NLP的一般处理流程

热门用户

GMT+8, 2019-10-20 11:36