主题:艾瑞_渠道指数_学习教育
网址:http://index.iresearch.com.cn/channel/list/

采集艾瑞移动渠道指数的时候,在点击学习教育-选择渠道-选择时间后,采集数据的时候不会滚屏,这样只采前20个,剩下的都漏掉了,请问什么原因呢?在连续动作中加入滚屏,在选择渠道和时间的时候又会出现循环



举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-11-21 11:58

沙发
Fuller 管理员 发表于 2018-11-20 18:34:15 | 只看该作者
我加载了你的规则,选择时间是要从2018年10月开始,倒着选择其它月份吗?
第6步,做了一个滚屏动作,目的是什么?我感觉是没有必要的。
DS打数机运行前,先关闭DS打数机的自动滚屏功能,菜单 配置-》滚屏参数,把滚屏次数设置成0就关闭了。

你要点击查看更多吗?如果要点击查看更多,需要做成两级规则,目标主题用另一个名字,所有动作做完后,进入到下一级,这一级负责抓取内容和点击“查看更多”,用翻页方法就行,不要用连续点击,具体参看《翻页采集列表》。

翻页完成后就会自动回到第一级,继续下一轮点击
举报 使用道具
板凳
稀饭客 金牌会员 发表于 2018-11-21 10:22:07 | 只看该作者
本帖最后由 稀饭客 于 2018-11-21 10:47 编辑

不需要点击更多,点击更多后网址后缀会加个/list/,可以直接构造,我帖子发的网址就是构造好的。选择渠道和选择时间的顺序没有关系,我做了动作的内容定位,可以知道爬取数据的渠道和时间。
问题主要是在选择完渠道和时间后,采集数据的时候不滚屏,这样只采集前20个数据,后面的数据需要滚屏加载才能抓取,所以我在连续动作中加了滚屏,但是不管用



举报 使用道具
地板
Fuller 管理员 发表于 2018-11-21 11:58:01 | 只看该作者
稀饭客 发表于 2018-11-21 10:22
不需要点击更多,点击更多后网址后缀会加个/list/,可以直接构造,我帖子发的网址就是构造好的。选择渠道和选 ...

我测试了一下,集搜客爬虫在处理连续滚屏这点上确实有点问题,需要这样避开:
连续动作的目标主题名用另一个名字。在这个新主题里面定义连续滚屏动作和抓取内容规则。这个新主题的动作就是只滚屏

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-7-12 23:16