注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 1. 动作前后采用不同主题名 连续动作和采集数据对爬虫来说是两个操作步骤,一般不能放到一个主题名里完成的,因为在同个主题名的话,爬虫就判断不了先后顺序而采集失败,详情见采集流程规划。所以,执行连续动作和动作成功后采数据通常要用不同主题名,最后爬虫就能根据主题名的层级关系来自动执行。比如
如上图,在第一个主题的连续动作工作台上命名动作后的主题名。上例的主题名起的不太好,可以明确指明 “xxxx入口”,“yyyy动作后”。 有人疑问:为什么要做成两级主题来抓数据,做成一个主题不是更省事吗? 其实这跟层级采集不一样,第一个主题是标识一个动作的入口,并执行连续动作;而第二个主题是在动作完成后采集看到的网页内容,注意:这里没有涉及到链接,是通过目标主题名来关联两级主题的。虽然两个主题的网页结构可能是一样的,但是,作用是完全不同的,一个负责执行连续动作,另一个负责采集数据。 2. 相关资料 2.1 连续动作概念、场景和用法 2.2返回目录-> |