是不是滚屏有次数限制啊?滚了1000次左右就自动停了,也没到底啊,这是咋回事啊?怎么解决呢?
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2021-7-23 15:58

沙发
Fuller 管理员 发表于 2021-7-22 15:16:51 | 只看该作者
要分两种情况检查原因,不知道是属于哪种情况:

情况1,在连续动作中定义了滚屏动作,比如下图这种。因为瀑布流没有终止,越往下滚,就会显示越多内容。如果没有设置清除老数据,那么生成的结果文件就会越来越大。大到一定程度,内存就不够了,就中断了。还有一种中断可能:网站反应慢,加载不出来了。


情况2,在配置界面上开启自动滚屏。注意,如果设置了连续动作滚屏,就不要开启自动滚屏。如果开启了自动滚屏,如果要滚动很多次,就要花费很长时间,那么就需要设置超时时长。连续动作滚屏不需要设置额外的超时时长,因为每滚一次采集一次;而自动滚屏需要设置超时时长,因为只有滚到底才采集一次。如下图,


举报 使用道具
板凳
wangshift 金牌会员 发表于 2021-7-22 17:51:44 | 只看该作者
用的连续动作里面的滚屏动作,滚屏采集设置的为否;
没有清除老数据,但我电脑内存足够大,1T固态,完全够;
上次在集搜客爬虫QQ群咨询了管理员,他说连续动作的滚屏有次数限制,不能滚太多次,不知道有没有这个说法
举报 使用道具
地板
wangshift 金牌会员 发表于 2021-7-22 17:52:33 | 只看该作者
Fuller 发表于 2021-7-22 15:16
要分两种情况检查原因,不知道是属于哪种情况:

情况1,在连续动作中定义了滚屏动作,比如下图这种。因为 ...

用的连续动作里面的滚屏动作,滚屏采集设置的为否;
没有清除老数据,但我电脑内存足够大,1T固态,完全够;
上次在集搜客爬虫QQ群咨询了管理员,他说连续动作的滚屏有次数限制,不能滚太多次,不知道有没有这个说法

举报 使用道具
5#
wangshift 金牌会员 发表于 2021-7-22 17:57:37 | 只看该作者
wangshift 发表于 2021-7-22 17:51
用的连续动作里面的滚屏动作,滚屏采集设置的为否;
没有清除老数据,但我电脑内存足够大,1T固态,完全够 ...

您好,您可以以今日头条为例,写一个用滚屏连续动作并且清除了老数据的规则吗?我学习一下,谢谢!
举报 使用道具
6#
Fuller 管理员 发表于 2021-7-22 18:42:23 | 只看该作者
wangshift 发表于 2021-7-22 17:57
您好,您可以以今日头条为例,写一个用滚屏连续动作并且清除了老数据的规则吗?我学习一下,谢谢!
...

在采集瀑布流网页的教程里面有设置清除老数据的说明。假设要清除网页上10条内容,录入的xpath应该定位到每条内容,可以用搜索功能看到是不是能定位到10条。

自定义的规则,没有连续滚屏数量限制
举报 使用道具
7#
Fuller 管理员 发表于 2021-7-22 18:43:52 | 只看该作者
我记得自定义规则连续滚屏是没有限制的,我再找开发确认一下。 快捷采集的滚屏是有限制的
举报 使用道具
8#
wangshift 金牌会员 发表于 2021-7-22 19:40:15 | 只看该作者
Fuller 发表于 2021-7-22 18:43
我记得自定义规则连续滚屏是没有限制的,我再找开发确认一下。 快捷采集的滚屏是有限制的 ...

好的,谢谢
举报 使用道具
9#
wangshift 金牌会员 发表于 2021-7-23 09:47:18 | 只看该作者
Fuller 发表于 2021-7-22 18:43
我记得自定义规则连续滚屏是没有限制的,我再找开发确认一下。 快捷采集的滚屏是有限制的 ...

您好,自定义规则连续滚屏是有次数限制吗?今天我又试了一下,设置了清除老数据,还是会在1000条左右中断
举报 使用道具
10#
wangshift 金牌会员 发表于 2021-7-23 10:24:20 | 只看该作者
Fuller 发表于 2021-7-22 18:43
我记得自定义规则连续滚屏是没有限制的,我再找开发确认一下。 快捷采集的滚屏是有限制的 ...

刚刚我手动翻了一下网页,翻到1000条左右网站自己崩溃了,所以应该是网站的问题,不是连续动作滚屏次数限制;
随便问一下,这种网站会崩溃的瀑布流怎么爬全呢?有什么好的建议吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 16:24