启动任务采集(单搜),任务正常执行,但采集几百条后,出现任务窗口在运行中,但是没有采集动作,停止采集,一直显示在“采集中”,鼠标放置“采集中”区域,出现信息如下:


关闭任务,重新启动采集,会恢复正常,运行一段时间后,又会不定时再次出现,导致采集数据量很小。请问这个要怎么能解决?
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2022-10-31 15:36

沙发
gz51837844 管理员 发表于 2022-10-30 10:01:33 | 只看该作者
你试试用爬虫群模式采集:在爬虫群模式下,可以定义每次采集几条网址,然后可以休息几秒,再开始下一批网址
举报 使用道具
板凳
tesla0078 高级会员 发表于 2022-10-30 18:21:20 | 只看该作者
爬虫群模式下,会出现“结束状态”窗口太多,导致电脑死机。管理员推荐的由爬虫群改为单搜模式。
举报 使用道具
地板
gz51837844 管理员 发表于 2022-10-31 08:52:42 | 只看该作者
tesla0078 发表于 2022-10-30 18:21
爬虫群模式下,会出现“结束状态”窗口太多,导致电脑死机。管理员推荐的由爬虫群改为单搜模式。 ...

是的,你采集的这个网站需要使用“弹窗模式”,有问题,目前只能使用单搜。每次启动单搜的时候,你可以根据经验值(这个网站一次抓取多少网址处理正常),输入需要一次执行的网址。这样这一批网址执行完成后会停止下来。再次人工启动单搜。。。
举报 使用道具
5#
tesla0078 高级会员 发表于 2022-10-31 09:07:04 | 只看该作者
gz51837844 发表于 2022-10-31 08:52
是的,你采集的这个网站需要使用“弹窗模式”,有问题,目前只能使用单搜。每次启动单搜的时候,你可以根 ...

启动单搜时候,采集网址数量设置的为100万条,在问题描述截图的线索数量中可见。应该不是因为网址采集数量导致的
举报 使用道具
6#
gz51837844 管理员 发表于 2022-10-31 10:09:39 | 只看该作者
tesla0078 发表于 2022-10-31 09:07
启动单搜时候,采集网址数量设置的为100万条,在问题描述截图的线索数量中可见。应该不是因为网址采集数 ...

我建议一次不要输入这么大的值。举例来说,对于这个网站,假如每次抓取500条后,后面的抓取就没有前面稳定,那么每次启动单搜的时候输入500:




举报 使用道具
7#
tesla0078 高级会员 发表于 2022-10-31 13:13:41 | 只看该作者
gz51837844 发表于 2022-10-31 10:09
我建议一次不要输入这么大的值。举例来说,对于这个网站,假如每次抓取500条后,后面的抓取就没有前面稳定 ...

多谢!我们测试看下。
举报 使用道具
8#
tesla0078 高级会员 发表于 2022-10-31 13:41:52 | 只看该作者
gz51837844 发表于 2022-10-31 10:09
我建议一次不要输入这么大的值。举例来说,对于这个网站,假如每次抓取500条后,后面的抓取就没有前面稳定 ...

任务启动时,线索设置为建议值500。测试了,任务中断死掉的异常还是存在。如下图

举报 使用道具
9#
gz51837844 管理员 发表于 2022-10-31 15:36:14 | 只看该作者
tesla0078 发表于 2022-10-31 13:41
任务启动时,线索设置为建议值500。测试了,任务中断死掉的异常还是存在。如下图

...

我说的500只是举例,请根据实际情况调整。如果你测试实际250条之后就会停止,那启动单搜的时候就输入250
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 02:48