主题:艾瑞_渠道指数_学习教育
网址:http://index.iresearch.com.cn/channel/list/

采集艾瑞移动渠道指数的时候,在点击学习教育-选择渠道-选择时间后,采集数据的时候不会滚屏,这样只采前20个,剩下的都漏掉了,请问什么原因呢?在连续动作中加入滚屏,在选择渠道和时间的时候又会出现循环



举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-11-21 11:58

Fuller 管理员 发表于 2018-11-20 18:34:15 | 显示全部楼层
我加载了你的规则,选择时间是要从2018年10月开始,倒着选择其它月份吗?
第6步,做了一个滚屏动作,目的是什么?我感觉是没有必要的。
DS打数机运行前,先关闭DS打数机的自动滚屏功能,菜单 配置-》滚屏参数,把滚屏次数设置成0就关闭了。

你要点击查看更多吗?如果要点击查看更多,需要做成两级规则,目标主题用另一个名字,所有动作做完后,进入到下一级,这一级负责抓取内容和点击“查看更多”,用翻页方法就行,不要用连续点击,具体参看《翻页采集列表》。

翻页完成后就会自动回到第一级,继续下一轮点击
举报 使用道具
稀饭客 金牌会员 发表于 2018-11-21 10:22:07 | 显示全部楼层
本帖最后由 稀饭客 于 2018-11-21 10:47 编辑

不需要点击更多,点击更多后网址后缀会加个/list/,可以直接构造,我帖子发的网址就是构造好的。选择渠道和选择时间的顺序没有关系,我做了动作的内容定位,可以知道爬取数据的渠道和时间。
问题主要是在选择完渠道和时间后,采集数据的时候不滚屏,这样只采集前20个数据,后面的数据需要滚屏加载才能抓取,所以我在连续动作中加了滚屏,但是不管用



举报 使用道具
Fuller 管理员 发表于 2018-11-21 11:58:01 | 显示全部楼层
稀饭客 发表于 2018-11-21 10:22
不需要点击更多,点击更多后网址后缀会加个/list/,可以直接构造,我帖子发的网址就是构造好的。选择渠道和选 ...

我测试了一下,集搜客爬虫在处理连续滚屏这点上确实有点问题,需要这样避开:
连续动作的目标主题名用另一个名字。在这个新主题里面定义连续滚屏动作和抓取内容规则。这个新主题的动作就是只滚屏

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-17 06:13