B站上的热门视频下面的评论,很多评论条目下面有很多回复或者跟评,我想点击“点击查看”以后,再翻页把所有回复都采集下来。然后点击下一条的“点击查看”,然后还要滚屏,就会加载出更多瀑布流网页内容。这样循环往复。怎么定义采集规则





举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2023-4-24 09:48

沙发
Fuller 管理员 发表于 2021-8-6 17:41:36 | 只看该作者
首先,要采集全B站视频的评论,一定要升级集搜客增强版爬虫软件——数据管家,至少要升级到V11.0.0
举报 使用道具
板凳
Fuller 管理员 发表于 2021-8-6 17:59:07 | 只看该作者
要定义三个动作,按照顺序分别是:
1,滚屏:用于加载瀑布流网页上的更多内容
2,点击:点击查看更多
3,点击:点击“下一页”

先看一下这三个动作的主要特征,点击下图的编排按钮,就能看到3个动作的列表,在这里可以拖放调整顺序,还可以需改主要特征





注意看这3个动作的必做设置,只有最后一步才有必做。“必做”的意思是:每一轮循环都要做这个动作。针对这个案例,循环的情形是这样的
第1轮循环:滚屏-点击查看-点击下一页
第2轮循环:点击下一页
第n轮循环:点击下一页,发现没有可点的“下一页”了
第n+1轮循环:点击查看-点击下一页,这样就开始采集第二条评论的回复
....
第m轮循环:发现“下一页”和“点击查看”都没有了
第m+1轮循环:执行 滚屏-点击查看-点击下一页
第m+2轮循环:点击下一页
...
举报 使用道具
地板
beargooseeker 新手上路 发表于 2023-4-23 01:23:56 | 只看该作者
可以分享这个规则吗或者有没有更加详细的图一页一页的
举报 使用道具
5#
Fuller 管理员 发表于 2023-4-24 09:48:13 | 只看该作者
beargooseeker 发表于 2023-4-23 01:23
可以分享这个规则吗或者有没有更加详细的图一页一页的

可以用B站视频采集_评论和回复快捷工具直接采集,不需要自己做采集规则。
注意采集之前,最好在数据管家登陆B站
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 02:39