菜单栏
图1:DS打数机的菜单栏
“文件”菜单
- 爬虫名字:DS打数机初始名称都是默认的,通常不影响打数机的运行,如果给爬虫起一个易于识别的名字,使用集搜和会员互助抓取功能时,集搜客管理平台更容易均匀指派网页抓取任务。同时,在会员中心中的爬虫仪表盘上也更容易区分每个爬虫,以便分别监控他们的网页抓取情况;
- 存储路径:缺省情况下,抓取结果存储在Windows用户目录下的DataScraperWorks文件夹。通常,用户登录Windows操作系统后,进入的用户目录是在系统盘C中,如果长时间抓取网页内容,系统盘的可用空间将会消耗很快,影响操作系统的运行。那么,应该通过本菜单,把存储目录指向别处,比如,数据盘D盘。另外还可以修改文件数量,就是一个文件夹中可以存储的最大的抓取结果数量,当超过这个数量以后,打数机会自动创建一个子目录,以后的抓取结果将存在子目录中,这样可以确保每个文件夹中的文件数量不大,不致影响打开文件夹的速度,通常设置成100,000以内为佳。
Tips:如果采用集搜功能,同时运行多个窗口一起抓取,几天以后就会产生多层子目录。在Windows下,文件名加上目录名总共不能超过250个字母(大概),
否则抓取结果就存不了了。随着子目录层数增加,会逐步逼近这个限制。那么,就应该定期修改存储路径,让抓取结果文件存在新的目录中。
- 退出:关闭当前窗口;
- 全部退出:退出所有已经开启的窗口,打数机将被整个关闭。
“配置”菜单
图2:DS打数机的配置菜单
- 自启动:如果您需要在每次开机时就启动打数机,可以勾选“自启动”菜单,那么每次运行火狐浏览器就会自动运行打数机,所以,接下来只需在Windows下设置火狐浏览器开机自启动就能达到目的;
- 超时时长:抓取网页的时候,加载目标网页命令发出以后将等待一段时间,以确保网页内容全面下载,这就是超时时长参数,以秒为单位。如果超过这个时间还没有将需要的内容加载到打数机中,就会在打数机底部日志窗口显示一条错误提示。
- 如果抓取时网络较慢,可以适当调大“超时时长”,避免由于超时时长设置太短造成抓取失败的情况。
- 如果抓取的目标网页相对简单,网络较好,可减小“超时时长”提高抓取效率
Tips:打数机有智能判断能力,并不是得到超时时长结束才开始抓取网页内容,而是利用一系列智能判断标志,
一旦发现条件成熟,即刻启动抓取过程,所以,设置超时时长是不用有太多顾虑,只是在网络异常或者抓取规则
不适应时才等到超时。
- 滚屏参数:爬虫用来计算采集速度的参数,分为滚屏次数和滚屏速度。
- 滚屏次数(scrollMorePages):额外滚屏次数,缺省值是0,表示不滚屏。滚屏功能用于抓取AJAX网页上的数据,这些数据一开始没有从服务
器上下载下来,直到用户滚动浏览器屏幕并在窗口中显示这些数据时才下载。请注意,这个数字并不代表准确地滚屏次数,因为程序会根据网页长度变化情况自动调整滚屏次数,这个数字可以看成是额外滚屏次数,即为了确保抓取最全的数据,在足够的滚屏次数之上额外增加的次数。常用取值:3 ~ 5。
详细使用方法参见如何自动滚屏抓取AJAX网站数据
- 滚屏速度(scrollWindowRatio):可正可负的整数,-1和1相同,表示不变速。< -1 表示降低速度,> 1 表示提高速度。假设为N>1,那么每滚一屏,延时1/N秒;假设为N<-1,那么每滚一屏,延时|N|秒
一定要打开滚屏功能,因为不滚到可见位置,图片是不显示的,而且不能滚得太快,否则有些图片就来不及显示,如果使用crontab调度程序来控制采集任务,一个比较好的参数组合是
scrollMorePages = 5
scrollWindowRatio = -2
- 可正可负的整数,-1和1相同,表示不变速。< -1 表示降低速度,> 1 表示提高速度,0表示不滚屏,一般保持默认值即可。参看 《自动滚屏》词条的解释。选择合适的滚屏参数,一方面确保不漏抓,另一方面,也是一种故意放慢抓取速度的手段。比如,防止抓取太快被目标网站封锁,或者被目标网站识别成机器人。
- 全屏显示:设置全屏显示,启动打数机时,窗口会放大到占满整个屏幕。参数设置以后,重新运行打数机才生效。在自动滚屏抓取网页时,通常要设置全屏显示,使用最大化的窗口可减少滚屏次数,提高抓取效率。
- 定时器触发:一些动态网页会在加载之后,还会与服务器一直通信(即所谓的AJAX动态网页),导致爬虫以为网页没有加载完毕,一直等待而不执行抓取,一直等到超时,这样会严重拖慢抓取速度。勾选“定时器触发”后,在抓取这种动态网页时,爬虫会在一定时间后就执行抓取。在抓一些淘宝店铺的网页时通常需要勾选“定时器触发”。
Tips:勾选“定时器触发”后,有时也会在网页没有完全显示时,就执行抓取,这时就有可能漏抓内容。
那么,通常的使用原则是:先不设置此选项,如果发现确有必要才设置。
- 关闭弹窗:在抓取一些网页时会有其他不相关弹窗弹出,勾选“关闭弹窗”之后,爬虫会自动关闭所有新近开启的火狐窗口。因此,这个功能不适用于您还需要继续使用火狐浏览器的情况下,因为您再新开一个火狐窗口,打数机将自动将其关闭。相反,适用于长期运行和无人看管的自动抓取情形,可以防止打开过多窗口导致内容耗完。
- 配置浏览器:网页上很多大块的内容是不需要抓取的,主要是图片、插件、js代码等,如果同时加载这些内容,将大量消耗网络带宽和计算机处理能力,那就可以在“配置浏览器”功能中不勾选这些内容,从而提高抓取速度;
“高级”菜单
- 终点标志:通常用在连贯翻页抓取,当翻到最后一页,网页上往往还有“下一页”标志,而且还能继续点击,通常这是一种不合常规的情形,那么爬虫就不容易决定是否该停下了。在这种情形下,可以告知爬虫去识别哪些特殊标志。其中一个标志是在网页的代码中含有void脚本,这个可以作为一个标志(勾选上);还有些网页在“下一页”超链接的href属性中放一些特殊字串,那么就可以设置自定义标志,把这些字串告知打数机。
- 统计:统计打数机的重要内存参数。这些参数不用于运行管理打数机,而是在出现故障的时候,借以判断打数机的内存管理是否正常。
“帮助”菜单
- 用户手册:链接到打数机用户手册;
- 软件下载:链接到集搜客网络爬虫下载页面;
- 产品首页:链接到集搜客大数据能力开放平台首页;
- 关于:查看打数机软件版本信息。
操作窗口
图3:DS打数机的操作窗口
搜索窗口
在搜索框中输入主题名,按回车键Enter或“搜索”按钮,搜索结果就会显示在列表中,包括主题名、样本页面、单搜、集搜等4项信息,并且,在忘了主题名的情况下,可以使用通配符*进行模糊搜索。也可以右击空白处,选择快捷菜单的“浏览主题”,这样能够查看所有主题。
搜索列表最多显示20个主题名,当搜索结果大于20个时,余下结果将在下一页中显示,点击“前页”或“后页”来执行翻页的操作。
“单搜”是“抓取网页”的快捷键,点击“单搜”按钮就会弹出“抓取网页”的会话窗口,设置需要抓取的线索数量并确定后,就会在管理窗口中启动抓取任务,具体的抓取情况可以点击“状态面板”的“性能”查看;注意:DS打数机只允许一个主题启动“单搜”功能,若想再启动新主题的“单搜”功能,管理窗口就会中断上一个主题的抓取任务,转而抓取新主题的网页数据,即“单搜”是覆盖执行的。
“集搜”是“单搜”的升级版,每个主题都可以启动“集搜”功能,点击主题的“集搜”按钮后,弹出“抓取网页”会话窗口,设置抓取线索数量并确定后,将会自动弹出新的简化版DS打数机窗口(集搜窗口),与原来的管理窗口同时抓取网页数据,能够高效抓取数据; DS打数机最多允许20个集搜窗口,这是因为主题列表最多显示20个主题名,所以,一共能够启动20个集搜窗口,并且,每个主题的集搜窗口都有固定的编号,与列表中的主题序号一一对应。如果运行了20个集搜窗口,还要再运行新主题的集搜窗口,那么根据新主题在主题列表中的序号,DS打数机就会使用对应编号的集搜窗口,从而把先前运行的那个主题给强制停止了,与“单搜”一样是覆盖执行的,所以,运行集搜窗口要注意主题序号和集搜窗口编号的对应关系,以减少强制停止的情况。
Tips:DS打数机窗口也叫做爬虫窗口,其中,具有菜单栏和操作窗口的DS打数机窗口称为管理窗口,但只有一个;而简化版的DS打数机窗口可以有多个,但是没有菜单栏和主操作窗口,只是纯粹用于抓取数据,例如:集搜窗口就是单纯抓取数据的简化版窗口。
快捷菜单
“抓取网页”和“单搜”的作用是一样的,在设置抓取线索数量后就会启动抓取进程。
“浏览主题”是一个全搜索的快捷键,点击后,搜索窗口就会把所有的规则显示出来,可用于快速检索。
“统计线索”是用来查看主题下的线索执行状态,其中,“等待抓取”是指可用来抓取数据的网址线索,“抓取失败”是数据抓取失败的网址线索,“规则不适用”是指抓取规则不适用的网址线索,“成功抓取”是指使用规则成功采集数据的网址线索。
“管理线索”是对线索状态的管理,“激活失败线索”可以把抓取失败的线索重新激活为“等待抓取”的状态,“激活所有线索”可以把所有线索(失败和成功的线索)激活为“等待抓取”的状态,“撤销所有线索”是使“等待抓取”、“抓取失败”和“规则不适用”的线索失效,并把这些线索的状态改为“成功抓取”的线索状态;
“排期”是用来查看和启动周期性抓取任务的。周期性抓取任务是通过设置周期性调度参数来实现的,可设为人工启动或自动启动,能够实现定时自启动采集的效果。
状态面板
图4:DS打数机的状态面板
对执行完成的采集任务的信息进行统计,点击后,可以看到性能细分为主题统计、全局统计、对象引用、数组大小。
- 按主题统计:根据主题名统计各个采集任务的相关信息,如果执行了多个采集任务,则分别展示每个主题下采集任务的详细信息。
- 全局统计:统计当前爬虫窗口执行的所有采集任务的参数信息。
- 对象引用:统计当前爬虫窗口执行的所有采集任务引用的主要对象。
- 数组大小:统计当前爬虫窗口执行的所有采集任务数组的大小。
显示当前爬虫窗口所执行采集任务的主题名。
显示当前爬虫窗口所执行采集任务的开始时间。
显示当前爬虫窗口所执行采集任务的总线索数。
显示当前爬虫窗口采集任务待执行的线索数,数值大小随采集任务的进程而变化。
描述爬虫窗口所属的类型,主要有三种类型,分别为“管理窗口”、“手动调度”以及“自动调度”。打开DS打数机系统默认窗口类型为管理窗口,执行“单搜”时,窗口类型显示为“管理窗口”,执行“集搜”时,窗口类型显示为“手动调度”,如果自定义用代码采集时,窗口类型显示为“自动调度”。
窗口名称与窗口类型相对应,即窗口类型为“管理窗口”对应窗口名称为“单搜”,窗口类型为“手动调度”对应窗口名称为“集搜”,而当窗口类型为“手动调度”时,用户需要在代码中自定义窗口名称。
查看服务器是否正常连接,分为抓取规则服务器和爬虫线索服务器,当连接正常时,状态栏显示为 ,连接错误时显示为 。
日志
记录特殊事件发生的时间
抓取过程中特殊事件的级别,分成4级,代表:调试、提示、告警、错误,对应数字从1-4,数字越大代表严重程度越高。
网页抓取失败后会生成对应的线索编号,可以把线索编号记下来,到MS谋数台上,点击菜单“工具”->“加载规则”->“按线索号”,把目标网页和抓取规则同时加载到工作台上,并且用抓取规则检验目标网页是否适合,如果不适合,可修改抓取规则。
爬虫软件处理器
网页抓取失败的原因
若有疑问可以或 |