下面是旧版的调度功能界面,新版本的调度功能请看《调度设置操作介绍》 1 使用场景
只要开启爬虫群模式,这些都能实现。爬虫群模式使用简洁的图形化界面,只需点点鼠标就能自由掌控爬虫,实现自动化的智能调度采集数据,真正实现了大爬虫的理念,让您采集数据更加高效便捷。 2 关于爬虫群
爬虫群模式是在一台电脑里同时打开多个爬虫(即DS打数机窗口),通过设置较大的爬虫数量和合理的抓取速度,不仅降低了封锁IP风险,还能抓到更多数据,是非常稳定且高效的本地采集模式。它整合了crontab爬虫调度程序、DS打数机主要功能、数据库存储三大功能块,使用简便的图形化界面操作,无需编程基础,开放百分百的权限,让您自由控制爬虫的数量以及运作情况,还有专享的数据库,高效处理千万级数据,轻松快速地转换数据格式。 爬虫群与做规则是可以同时运作的,但爬虫群只会采集调度池中的规则,想要自动采集哪个规则,就把它丢到调度池里,调度池相当于一个指挥中心,会自动分配采集任务给各个爬虫,所以,运行爬虫群、做规则、调度这三步是必须的,三者不分先后顺序。 如上图,对比不用爬虫群的工作模式,爬虫群的使用过程是这样的:
准备阶段完成后,只管做抓取规则,做好一个丢入调度池,就不用去管爬虫的启动,由调度系统自动把抓取任务分配给空闲的爬虫。当抓取规则变多以后,也不用操心crontab爬虫调度程序的编写问题了。可见很适合做大量抓取规则并运行大量爬虫的场景。 准备阶段完成以后应该看到类似下图的爬虫群都处于待命状态了。
可以了解到GooSeeker社区的会员中心和爬虫软件已经集成为一个“大爬虫系统”,爬虫软件是一个执行部件,而会员中心像大脑,是指挥部件。点击查阅更多操作如何运行爬虫群。
|