配套软件版本:V10及更高 数据管家——增强版网络爬虫 老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《DS打数机采集数据》 做好采集规则,并且保存后,怎么启动采集?目前有三种放式。 方式一:做好规则保存后,直接点击工作台上的“采数据”按钮,启动采集 方式二:在任务管理页面,启动采集。 方式三:用爬虫群采集数据。 这篇教程只讲解方式一和方式二,和一些常用的采集优化配置。方式三参见《爬虫群采集数据》。 1. 方式一,直接点击“采数据”按钮,启动采集 做好规则,保存后。直接点击旁边的“采数据”按钮,启动采集。采集过程和方式二相同。 2. 方式二,在任务管理页面,启动采集。 2.1 点击数据管家左侧边栏的任务管理按钮 2.2 选中任务名,进入任务的管理页面 本例中,选中的任务是JD-牛仔裤男。 任务管理的下方是线索(网址)管理,可以对这个任务的线索(网址)进行管理,添加,查看,激活等等。详细的操作见《如何管理网络爬虫的线索》。 观察网址状态详情,看看有多少个待采集网址,把这个数字记下来。本例中,待采集网址有2条。 2.3 点击任务名后的菜单,启动采集 按提示,输入网址数,和翻页次数。 注意,连续的翻页,算一条网址。(比如,在本例中,爬京东网站上男牛仔裤的列表页,总共有100页,对爬虫来说,这是一条网址。手机的列表页网址是另一条网址。) 在本例中,如果不限制翻页的话,爬虫要一直翻完100页才会结束,爬取时间比较长。有些用户刚开始练习,急于看到数据结果,可以在这里设置爬取少量页数,比如5页。 点击确定后,弹出一个新的窗口,加载要爬取的网页,开始采集,在这个窗口的右下方有一个绿色的圆形标志,表示这是一个采集窗口,及采集的状态。 2.4 采集完成后,按教程《打包下载excel格式的数据》,打包下载数据。 在数据管家的最左侧的侧边栏,有个设置按钮,点击它,进入采集的设置选项,选择配置。 在采集配置中,用户比较常用到的参数: 延迟抓取:有些网页打开比较慢,延迟抓取要设置的大一些,比如设置10s,表示等网页加载10s后,才开始采集。 超时时长:有些网页加载很慢,要采集的内容一直没有加载出来,爬虫会一遍遍的扫描等待。但是也不能无限等待,设置一个时间,比如60s,60s时间到了,爬虫自动跳到下一个采集网页。 滚屏采集:要打开滚屏,才能采集到完整的内容,一般设置次数2,速度2。 次数越大,采集的越慢。如果要采集的内容,就在网页的最上方,不需要滚屏,可以把滚屏关掉。 重复内容中断:有些网页,比如本例中的京东列表网页,翻页到最后一页的时候,会一直停留在最后一页死循环,设置了重复内容中断,当某一页重复采集了3次后,采集就中断退出了。 上篇文章:《如何管理网络爬虫的线索》 下篇文章:《用爬虫群采集数据》 |