做了2个任务:
任务1:定义连续动作,连续动作后,执行任务2(到动作后的新页面采集数据,需要采集3次,动作中已定义);
任务2:采集1个新页面中的几个数据;
任务1的下级任务定义为:任务2


结束状态太多

结束状态太多

存在问题是:
任务1和任务2加入爬虫群后,然后启动爬虫群
动作执行正确,采集数据正确;但任务2采集一个页面的数据就会返回一个“结束状态”窗口,导致“结束状态”窗口太多(发现好像任务2“结束状态”出现后会触发任务1中的后续采集动作)。
任务2调度设置中的“一批网址数量”改大,问题依旧存在。


期望实现:
启动爬虫群,任务1还在执行中,子任务-任务2采集完数据,“结束状态”窗口不出现,最后出现任务1的“结束状态”
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2022-10-19 14:33

gz51837844 管理员 发表于 2022-10-18 19:25:43 | 显示全部楼层
如果任务1和任务2是通过连续动作串起来的,那个爬虫群调度只用设置任务1, 在执行任务1的时候会自动执行任务2.

你说的“结束窗口”太多,是指什么情况? 是不是任务1里面有什么动作每次执行后,会弹开一个新的页面?
举报 使用道具
tesla0078 高级会员 发表于 2022-10-18 19:35:24 | 显示全部楼层
gz51837844 发表于 2022-10-18 19:25
如果任务1和任务2是通过连续动作串起来的,那个爬虫群调度只用设置任务1, 在执行任务1的时候会自动执行任 ...


结束状态太多.jpg
如上图所示(看不清的话,附件中有):浏览器窗口中的“状态结束”窗口:


结束状态窗口下的内容为:
"任务2" 已完成采集,您可以:
把采集结果转换成Excel,点击导出Excel
管理任务、网址和数据,点击管理任务
检查是否有失败情况,点击查看日志


结束状态窗口太多

结束状态窗口太多
举报 使用道具
tesla0078 高级会员 发表于 2022-10-18 19:38:50 | 显示全部楼层

结束状态窗口太多

结束状态窗口太多

如上图或附件所示:浏览器窗口中:


结束状态窗口下的内容为:
"任务2" 已完成采集,您可以:
把采集结果转换成Excel,点击导出Excel
管理任务、网址和数据,点击管理任务
检查是否有失败情况,点击查看日志
举报 使用道具
tesla0078 高级会员 发表于 2022-10-18 19:41:51 | 显示全部楼层
问题描述中图片中的“gooseeker”浏览器窗口中的“结束状态”窗口。
结束状态窗口下的内容为:
"任务2" 已完成采集,您可以:
把采集结果转换成Excel,点击导出Excel
管理任务、网址和数据,点击管理任务
检查是否有失败情况,点击查看日志
举报 使用道具
gz51837844 管理员 发表于 2022-10-18 19:46:03 | 显示全部楼层
tesla0078 发表于 2022-10-18 19:38
如上图或附件所示:浏览器窗口中:

有几个窗口是正常的,这个窗口数是可以定义的。如果你只想打开一个,就把那几个结束状态的爬虫群窗口都关闭,然后按下图,点击启动一个窗口:


QQ截图20221018194532.png

举报 使用道具
tesla0078 高级会员 发表于 2022-10-18 22:22:55 | 显示全部楼层
gz51837844 发表于 2022-10-18 19:46
有几个窗口是正常的,这个窗口数是可以定义的。如果你只想打开一个,就把那几个结束状态的爬虫群窗口都关 ...

多谢耐心回复。不过不是这个造成的。爬虫群中的这个参数已设置为1.
运行爬虫群的窗口截图如下:

结束状态窗口

结束状态窗口

如上图所示:
标识1:为一级任务-任务1,连续动作会陆续点击3个链接(该链接无法直接获取,只能点击链接通过飞掠采集新弹出页面采集所需数据);
标识2:为二级任务-任务2的执行窗口状态,
执行逻辑为:
1:任务1中连续动作第1次飞掠模式点击链接1,弹出链接1新网址页面,
2:任务2在弹出去的新网址页面1采集数据;
3:然后任务1中连续动作第2次飞掠模式点击链接2,弹出链接2新网址页面,
4:任务2在弹出去的新网址页面2采集数据;
5:然后任务1中连续动作第3次飞掠模式点击链接3,弹出链接3新网址页面,
6:任务2在弹出去的新网址页面3采集数据;
7:任务1完成所有连续动作,完成1次完整任务与执行;
8:任务1读入新的执行线索,重复1-6;
9:任务1会读入很多执行线索。
这样会造成标识2所在区域出现成千上万及更大量级的“结束状态”窗口,最终占尽系统资源。

备注:标识2区域的“结束状态”为任务2的结束状态,
其内容为:
“"任务2" 已完成采集,您可以:
把采集结果转换成Excel,点击导出Excel
管理任务、网址和数据,点击管理任务
检查是否有失败情况,点击查看日志”

请达人们帮看看,有什么好办法解决?

举报 使用道具
gz51837844 管理员 发表于 2022-10-19 10:09:47 | 显示全部楼层
tesla0078 发表于 2022-10-18 22:22
多谢耐心回复。不过不是这个造成的。爬虫群中的这个参数已设置为1.
运行爬虫群的窗口截图如下:

你爬取的页面是可以公开访问的吗?如果是的话,你可以把任务名贴出来,管理员可以加载分析你的采集规则
举报 使用道具
tesla0078 高级会员 发表于 2022-10-19 10:16:50 | 显示全部楼层
gz51837844 发表于 2022-10-19 10:09
你爬取的页面是可以公开访问的吗?如果是的话,你可以把任务名贴出来,管理员可以加载分析你的采集规则
...

好的。谢谢您!
任务名:
任务1:飞掠模式202201LM
任务2:烟火气产品新品抓取02
举报 使用道具
gz51837844 管理员 发表于 2022-10-19 11:19:11 | 显示全部楼层
tesla0078 发表于 2022-10-19 10:16
好的。谢谢您!
任务名:
任务1:飞掠模式202201LM

我测试了一下,在爬虫群模式下,你描述的问题确实存在。这个问题我会转交相关技术做进一步测试。

目前你可以把爬虫群调度关闭,先使用下图所示的“单搜”爬取模式,我测试是正常的:
QQ截图20221019111130.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 06:18