一级任务为指定动作检索网页,二级任务为采集网页数据。一级设置定时采集,二级不设置,启动爬虫群,结果一级采集了,二级没有执行采集。尝试修改是否激活下级线索设置,结果不变

举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2022-9-30 10:20

沙发
15766717525 初级会员 发表于 2022-9-29 11:20:26 | 只看该作者
这个是任务网址https://data.stats.gov.cn/easyquery.htm?cn=B01,一二级任务网址一样
举报 使用道具
板凳
Fuller 管理员 发表于 2022-9-29 11:34:19 | 只看该作者
如果第一级到第二级是用连续动作执行的,那么运行第一级的时候,会执行动作立即运行第二级,可以观察爬虫窗口,是否进入了第二级的页面。设置调度参数的时候只给第一级设置就行了
举报 使用道具
地板
gz51837844 管理员 发表于 2022-9-29 11:42:17 | 只看该作者
15766717525 发表于 2022-9-29 11:20
这个是任务网址https://data.stats.gov.cn/easyquery.htm?cn=B01,一二级任务网址一样

可以检查下:
1. 第二级任务是否有新生成的处于待采集状态的网址
2. 第二级任务是否设置了调度(同时不勾选定时采集)
3. 去观察下爬虫群窗口是否在正常工作
举报 使用道具
5#
gz51837844 管理员 发表于 2022-9-29 11:44:57 | 只看该作者
另外第一级和第二级之间是通过什么串起来的?是连续动作还是网址? 你发的那个网址,在页面上进行什么操作才能进入二级页面?
举报 使用道具
6#
15766717525 初级会员 发表于 2022-9-29 12:09:31 | 只看该作者
gz51837844 发表于 2022-9-29 11:42
可以检查下:
1. 第二级任务是否有新生成的处于待采集状态的网址
2. 第二级任务是否设置了调度(同时不勾 ...

二级任务没有新生成的待采集状态网址,二级设置了爬虫调度,没有定时设置
举报 使用道具
7#
15766717525 初级会员 发表于 2022-9-29 12:13:52 | 只看该作者
gz51837844 发表于 2022-9-29 11:44
另外第一级和第二级之间是通过什么串起来的?是连续动作还是网址? 你发的那个网址,在页面上进行什么操作 ...

第一级指定动作,点击相应的标题切换页面,动作后执行二级任务。一级主要是切换到指定页面,因为不同页面,网址都是一样的,所以需要这个任务做二级任务执行前的一个定位功能,这样二级任务就可以采集我想要的页面数据


举报 使用道具
8#
15766717525 初级会员 发表于 2022-9-29 12:16:19 | 只看该作者
Fuller 发表于 2022-9-29 11:34
如果第一级到第二级是用连续动作执行的,那么运行第一级的时候,会执行动作立即运行第二级,可以观察爬虫窗 ...

第一级任务执行后就已经跳转到我指定的页面,但是爬虫窗口这里的状态没看到二级任务的执行


举报 使用道具
9#
gz51837844 管理员 发表于 2022-9-29 14:35:43 | 只看该作者
按你的描述,你是用连续动作来把2级规则给串起来,这种执行方式只要执行第1级就会不间断同时执行第2级。如果第1级执行成功而没有成功生成第2级的结果文件,通常是动作执行失败了或者第2级规则不匹配。
第2级的调度有设置或者没有设置都没有关系。
你可以测试下,测试过程中观察:
1. 页面有没有按你预想的加载,动作有没有执行,动作执行后的页面变化是否符合预期
2. 执行完后,直接到电脑的存放本地文件的文件夹里,看看2级规则下有没有新的文件生成。下面的截图是我电脑上的情况示意,你电脑上的情况可能有不同。点击进入2级规则子目录,看看有没有新的文件生成:

3. 在爬虫窗口,点击那个“查看日志”,看看有什么日志信息


举报 使用道具
10#
15766717525 初级会员 发表于 2022-9-30 09:51:58 | 只看该作者
gz51837844 发表于 2022-9-29 14:35
按你的描述,你是用连续动作来把2级规则给串起来,这种执行方式只要执行第1级就会不间断同时执行第2级。如 ...

我执行后的结果,显示任务二是上载完成,请问这个上载完成是什么意思
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 05:02