规则名:走饭啊
微博评论爬取只能采集第一页
设置了自动滚屏,翻页区,翻页线索
都不行
求救


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2021-4-26 11:14

来自 6#
wangyong 版主 发表于 2021-4-26 11:14:03 | 只看该作者
本帖最后由 wangyong 于 2021-5-6 10:10 编辑

1,下载数据管家从左侧工具条进入微博工具箱,使用微博评论/转发采集


2,新建采集任务→勾选评论→输入要采集的微博网址建→确定提交启动采集


数据展示:







举报 使用道具
沙发
Fuller 管理员 发表于 2020-6-3 09:52:09 | 只看该作者
点击“查看规则”,把规则考出来,搜索一下,可以看到定位到 A 元素上。而A元素下面还有一个SPAN元素,微博评论这个网页很特别,要点击SPAN才行。参看下图,用SPAN节点作为翻页区,这样可缩小翻页区范围,再查看规则,就会发现是定位到很精确的SPAN节点。







饭也去20200603094934.png (273.07 KB, 下载次数: 570)

饭也去20200603094934.png
举报 使用道具
板凳
笑看人生 中级会员 发表于 2020-6-3 12:05:53 | 只看该作者
Fuller 发表于 2020-6-3 09:52
点击“查看规则”,把规则考出来,搜索一下,可以看到定位到 A 元素上。而A元素下面还有一个SPAN元素,微博 ...

谢谢。这样操作之后,爬到50页就自动停止了。试了好几次都是
举报 使用道具
地板
wangyong 版主 发表于 2020-6-3 14:48:11 | 只看该作者
新浪微博评论页面过程中可能会不显示内容,所以翻页就中断了

可以用微博评论工具采集以下试试https://www.gooseeker.com/res/softdetail_6.html
微博评论工具再页数多的情况下也采不全,但是做了一些其他设计可能能采集到更多
举报 使用道具
5#
笑看人生 中级会员 发表于 2020-6-4 18:17:37 | 只看该作者
wangyong 发表于 2020-6-3 14:48
新浪微博评论页面过程中可能会不显示内容,所以翻页就中断了

可以用微博评论工具采集以下试试https://www. ...

好的,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 02:26