快捷导航
11 78

滚屏次数限制

wangshift 于 2021-7-22 12:44 发表 [复制链接]
是不是滚屏有次数限制啊?滚了1000次左右就自动停了,也没到底啊,这是咋回事啊?怎么解决呢?
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2021-7-23 15:58

Fuller 管理员 发表于 2021-7-22 15:16:51 | 显示全部楼层
要分两种情况检查原因,不知道是属于哪种情况:

情况1,在连续动作中定义了滚屏动作,比如下图这种。因为瀑布流没有终止,越往下滚,就会显示越多内容。如果没有设置清除老数据,那么生成的结果文件就会越来越大。大到一定程度,内存就不够了,就中断了。还有一种中断可能:网站反应慢,加载不出来了。
连续滚屏4.png

情况2,在配置界面上开启自动滚屏。注意,如果设置了连续动作滚屏,就不要开启自动滚屏。如果开启了自动滚屏,如果要滚动很多次,就要花费很长时间,那么就需要设置超时时长。连续动作滚屏不需要设置额外的超时时长,因为每滚一次采集一次;而自动滚屏需要设置超时时长,因为只有滚到底才采集一次。如下图,
滚屏7.png

举报 使用道具
wangshift 高级会员 发表于 2021-7-22 17:51:44 | 显示全部楼层
用的连续动作里面的滚屏动作,滚屏采集设置的为否;
没有清除老数据,但我电脑内存足够大,1T固态,完全够;
上次在集搜客爬虫QQ群咨询了管理员,他说连续动作的滚屏有次数限制,不能滚太多次,不知道有没有这个说法
image.jpg
举报 使用道具
wangshift 高级会员 发表于 2021-7-22 17:52:33 | 显示全部楼层
Fuller 发表于 2021-7-22 15:16
要分两种情况检查原因,不知道是属于哪种情况:

情况1,在连续动作中定义了滚屏动作,比如下图这种。因为 ...

用的连续动作里面的滚屏动作,滚屏采集设置的为否;
没有清除老数据,但我电脑内存足够大,1T固态,完全够;
上次在集搜客爬虫QQ群咨询了管理员,他说连续动作的滚屏有次数限制,不能滚太多次,不知道有没有这个说法

举报 使用道具
wangshift 高级会员 发表于 2021-7-22 17:57:37 | 显示全部楼层
wangshift 发表于 2021-7-22 17:51
用的连续动作里面的滚屏动作,滚屏采集设置的为否;
没有清除老数据,但我电脑内存足够大,1T固态,完全够 ...

您好,您可以以今日头条为例,写一个用滚屏连续动作并且清除了老数据的规则吗?我学习一下,谢谢!
举报 使用道具
Fuller 管理员 发表于 2021-7-22 18:42:23 | 显示全部楼层
wangshift 发表于 2021-7-22 17:57
您好,您可以以今日头条为例,写一个用滚屏连续动作并且清除了老数据的规则吗?我学习一下,谢谢!
...

在采集瀑布流网页的教程里面有设置清除老数据的说明。假设要清除网页上10条内容,录入的xpath应该定位到每条内容,可以用搜索功能看到是不是能定位到10条。

自定义的规则,没有连续滚屏数量限制
举报 使用道具
Fuller 管理员 发表于 2021-7-22 18:43:52 | 显示全部楼层
我记得自定义规则连续滚屏是没有限制的,我再找开发确认一下。 快捷采集的滚屏是有限制的
举报 使用道具
wangshift 高级会员 发表于 2021-7-22 19:40:15 | 显示全部楼层
Fuller 发表于 2021-7-22 18:43
我记得自定义规则连续滚屏是没有限制的,我再找开发确认一下。 快捷采集的滚屏是有限制的 ...

好的,谢谢
举报 使用道具
wangshift 高级会员 发表于 2021-7-23 09:47:18 | 显示全部楼层
Fuller 发表于 2021-7-22 18:43
我记得自定义规则连续滚屏是没有限制的,我再找开发确认一下。 快捷采集的滚屏是有限制的 ...

您好,自定义规则连续滚屏是有次数限制吗?今天我又试了一下,设置了清除老数据,还是会在1000条左右中断
举报 使用道具
wangshift 高级会员 发表于 2021-7-23 10:24:20 | 显示全部楼层
Fuller 发表于 2021-7-22 18:43
我记得自定义规则连续滚屏是没有限制的,我再找开发确认一下。 快捷采集的滚屏是有限制的 ...

刚刚我手动翻了一下网页,翻到1000条左右网站自己崩溃了,所以应该是网站的问题,不是连续动作滚屏次数限制;
随便问一下,这种网站会崩溃的瀑布流怎么爬全呢?有什么好的建议吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 新闻内容分词后在Jupyter Notebook中使用TF
  • Jupyter Notebook使用sklearn的TF-IDF算法
  • 基于TSC 理论的网络社区中知识动员模式研究
  • 网页数据采集使用嵌套整理箱获得有层次的数
  • 我国旅游管理研究的知识来源与结构—基于文

热门用户

GMT+8, 2021-7-31 15:06