集搜客GooSeeker网络爬虫

标题: 淘宝手机端问大家爬取滚屏出错 [打印本页]

作者: 18042659925    时间: 2020-5-25 23:41
标题: 淘宝手机端问大家爬取滚屏出错
我的第一级任务名是问大家01,线索为  https://m.tb.cn/h.VP4czID  其下级任务名是问大家01第二级。
第一级任务连续动作设置了每次滚屏数10,总共滚屏数-1.打数机滚屏次数0,滚屏速度2,设置了终止标志位重复内容。
爬第一级任务发现页面没有滚屏,直接报因发现重复内容,连续动作被中断。

作者: wangyong    时间: 2020-5-26 08:24
这个手机版的网页得用连续动作里的滚轮动作才能实现滚屏,参考教程:https://www.gooseeker.com/doc/article-408-1.html
作者: 18042659925    时间: 2020-5-26 15:39
wangyong 发表于 2020-5-26 08:24
这个手机版的网页得用连续动作里的滚轮动作才能实现滚屏,参考教程:https://www.gooseeker.com/doc/articl ...

教程里面教了高级设置的滚轮区域,但是如何设置定位表达式呢

作者: Fuller    时间: 2020-5-26 15:45
18042659925 发表于 2020-5-26 15:39
教程里面教了高级设置的滚轮区域,但是如何设置定位表达式呢

如果一个区域中的内容能单独滚动,右边有可能会有滚动条,也可能没有。这个区域可能是用一个div表示的,那么定位表达式就是这个div的xpath。

还有其他参数,比如,定位的比例,就是决定鼠标放在这个div的方形区域中大概哪个位置。这个设置通常不重要,但是,万一中心位置上有一个别的html元素覆盖了这个滚动区域,就需要用定位比例参数把鼠标放在其他地方。

注意,实际上是看不到鼠标的光标的

作者: 18042659925    时间: 2020-5-26 16:10
Fuller 发表于 2020-5-26 15:45
如果一个区域中的内容能单独滚动,右边有可能会有滚动条,也可能没有。这个区域可能是用一个div表示的, ...

我现在的规则里有一个二级任务,它点进去采集二级任务之后不返回到一级任务继续做,直接任务完成了,也没有滚屏。

作者: Fuller    时间: 2020-5-26 16:34
18042659925 发表于 2020-5-26 16:10
我现在的规则里有一个二级任务,它点进去采集二级任务之后不返回到一级任务继续做,直接任务完成了,也没 ...

我测试了这个规则,这个网页应该使用 点击和回退,但是,你即使购买了旗舰版,有了回退功能,也很难采集全,因为在第二级执行回退以后,回到第一级,又只显示一开始的几个问题,就是说,回退以后不能保持在你当时点击的那个位置上。 所以,用这个通用版本爬虫采集不全

作者: 18042659925    时间: 2020-5-26 16:44
Fuller 发表于 2020-5-26 16:34
我测试了这个规则,这个网页应该使用 点击和回退,但是,你即使购买了旗舰版,有了回退功能,也很难采集 ...

那我应该怎么办呢

作者: Fuller    时间: 2020-5-26 18:14
18042659925 发表于 2020-5-26 16:44
那我应该怎么办呢

这个网页我看不到好的采集方法,要专门定制程序,就太麻烦了





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2