1,界面布局 集搜客 数据管家软件 是一个数据采集和管理的综合入口,功能直达按钮位于左栏,分别是: 1, 定义爬虫规则 2, 任务管理 3, 数据管理 4, 分词和文本分析 5, 网页和pdf摘录 左边栏再往右就是工作台面板,工作台面板跟当前使用的功能有关,定义规则有定义规则的工作台,内容摘录有内容摘录的工作台,而任务管理的工作台就是任务列表。 2,进入任务管理 要想运行和管理任务,需要进入任务管理,点击左边栏的任务管理按钮,就展开了任务管理工作台。 在任务管理工作台上可以看到任务的自动调度状态和任务管理按钮,如下图。 3,运行模式:单搜/集搜和自动调度 鼠标悬浮在工作台的任务管理按钮区域,就能显示悬浮菜单,选择“启动采集”,就能手工启动单个任务的采集。以前的DS打数机分成单搜和集搜两种类型,在数据管家这里不再区分,每次选择“启动采集”菜单就会运行一个新的爬虫窗口。 而自动调度是采用爬虫群模式自动给多个爬虫窗口分配任务,速度快,免维护。在任务工作台上可以看到一个指南针形状的图标,表示设置了自动调度,如果是灰色的,表示暂停了。 如果当前集搜客数据管家软件并没有运行爬虫群窗口,点击上图的“启动爬虫群”,就能把爬虫群窗口运行起来。缺省运行两个窗口,如果想增加更多窗口,点击左栏的设置按钮,对爬虫群窗口进行管理。 |