关于使用gooseeker抓取某微博博文下的用户评论问题

最爱王哥了

如题，我访问新浪微博华为的主页，试图用gooseeker抓取华为发的博文下的用户评论，有的博文会有3000多条评论，我按照网上的一些教程，能抓出一些用户名，发布时间，评论内容，出现的问题有：
1.生成的XML文件出现迭代式的重复数据，文档中出现了几百个xml，抓到的数据量是1，1+1，1+1+1, 以此类推，也就是说，如果目标是3000条数据，打数机一次抓100条，那么生成的xml文件就会是100，200，300。。。最后才是含3000数据的xml。应该是定规则的时候除了某些问题，可惜我没找到具体的解决方案。
2.用户的评论内容，如果出现“真是太棒了/大拇指”这种文字+表情的文本，抓取内容为空，这是哪里出了问题？
3.我认为最关键的问题，微博评论页面是动态加载的，翻页这个功能我没有实现，基本是我点开多少内容，就只能抓到多少内容。

最爱王哥了 · 发表于 2019-7-8 00:37:40

不知道有没有用GS抓取过微博评论的用户，请教你们一下使用的细节

Fuller · 发表于 2019-7-8 08:37:38

最爱王哥了发表于 2019-7-8 00:37
不知道有没有用GS抓取过微博评论的用户，请教你们一下使用的细节

如果使用了连续动作的点击加载更多，或者是滚屏加载更多，那么，因为加载更多以后，前一次加载在网页上的内容还在，所以，会在老内容基础上叠加新内容，就是你观察到的重复越来越多。

虽然旗舰版有清除老数据的功能，但是，不推荐使用，因为有时候清除了老数据，新数据不让加载。你可以在导出成excel中用标记重复数据后进行删除。

关于表情符号，分两种情况：
情况一：表情符号是一个图片，那种彩色的基本上就是图片，那样，需要采集规则将抓取内容设置成采集网页片段的类型，这样就会把一段html采集下来，里面会有img标签
情况二：表情符号是一个符号字符，一般不会是彩色的，跟普通文字一样。那么爬虫可以采集下来。在采集结果原始文件（XML格式的采集结果文件）中一定会有，但是导出成excel就没有，给过滤掉了。

你是自己做的采集规则还是用了微博采集工具箱中现成的工具？

Fuller · 发表于 2019-7-8 18:03:12

可以用集搜客微博工具箱里的评论/转发工具，把博文网址添加进去，就可以采集博文的评论了。

关于使用gooseeker抓取某微博博文下的用户评论问题

共 3 个关于本帖的回复最后回复于 2019-7-8 18:03

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

关于使用gooseeker抓取某微博博文下的用户评论问题

共 3 个关于本帖的回复 最后回复于 2019-7-8 18:03

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2019-7-8 18:03