DS打数机的操作界面

2015-8-7 17:31| 发布者: admin| 查看: 12902| 评论: 0

摘要: 菜单栏 菜单栏:包括文件、配置、高级和帮助四部分,通过这些菜单可以更好地控制和优化DS打数机的运行,下面将分别讲解。 文件 第一次运行,最好设置一下爬虫名字和存储路径。 爬虫名字:DS打数机初始名称都是默 ...
DS打数机操作界面
DS打数机由菜单栏、操作窗口、浏览器窗口、
状态面板日志五个部分组成,如图1所示,下面将详细讲述每一部分的功能。

图1:DS打数机操作界面


菜单栏

菜单栏:包括文件、配置、高级和帮助四部分,如图2所示,通过这些菜单可以更好地控制和优化DS打数机的运行,下面将分别讲解。

图2:DS打数机的菜单栏

文件

第一次运行,最好设置一下爬虫名字和存储路径,便于以后检查爬虫的运行情况和查找数据文件。

  • 爬虫名字:DS打数机初始名称都是默认的,通常不影响打数机的运行,如果给爬虫起一个易于识别的名字,使用集搜和会员互助抓取功能时,集搜客管理平台更容易均匀指派网页抓取任务。同时,在会员中心中的爬虫仪表盘上也更容易区分每个爬虫,以便分别监控他们的网页抓取情况;
  • 存储路径:缺省情况下,抓取结果存储在Windows用户目录下的DataScraperWorks文件夹。通常,用户登录Windows操作系统后,进入的用户目录是在系统盘C中,如果长时间抓取网页内容,系统盘的可用空间将会消耗很快,影响操作系统的运行。那么,应该通过本菜单,把存储目录指向别处,比如,数据盘D盘。另外还可以修改文件数量,就是一个文件夹中可以存储的最大的抓取结果数量,当超过这个数量以后,打数机会自动创建一个子目录,以后的抓取结果将存在子目录中,这样可以确保每个文件夹中的文件数量不大,不致影响打开文件夹的速度,通常设置成100,000以内为佳。

Tips:如果采用集搜功能,同时运行多个窗口一起抓取,几天以后就会产生多层子目录。在Windows下,文件名加上目录名总共不能超过250个字母(大概), 否则抓取结果就存不了了。随着子目录层数增加,会逐步逼近这个限制。那么,就应该定期修改存储路径,让抓取结果文件存在新的目录中。

  • 退出:关闭当前窗口;
  • 全部退出:退出所有已经开启的窗口,打数机将被整个关闭。


配置

为了提高抓取效率和可靠性,可根据网络环境、计算机配置高低和目标网站的速度等配置DS打数机的运行参数,如图3所示。

图3:DS打数机“配置”菜单

  • 自启动:如果您需要在每次开机时就启动打数机,可以勾选“自启动”菜单,那么每次运行火狐浏览器就会自动运行打数机,所以,接下来只需在Windows下设置火狐浏览器开机自启动就能达到目的;

  • 超时时长:抓取网页的时候,加载目标网页命令发出以后将等待一段时间,以确保网页内容全面下载,这就是超时时长参数,以秒为单位。如果超过这个时间还没有将需要的内容加载到打数机中,就会在打数机底部日志窗口显示一条错误提示。
    • 如果抓取时网络较慢,可以适当调大“超时时长”,避免由于超时时长设置太短造成抓取失败的情况。
    • 如果抓取的目标网页相对简单,网络较好,可减小“超时时长”提高抓取效率

Tips:打数机有智能判断能力,并不是得到超时时长结束才开始抓取网页内容,而是利用一系列智能判断标志, 一旦发现条件成熟,即刻启动抓取过程,所以,设置超时时长是不用有太多顾虑,只是在网络异常或者抓取规则 不适应时才等到超时。

  • 滚屏参数:爬虫用来计算采集速度的参数,分为滚屏速度滚屏次数
  1. 滚屏速度(scrollWindowRatio):可正可负的整数,-1和1相同,表示不变速。< -1 表示降低速度,> 1 表示提高速度。假设为N>1,那么每滚一屏,延时1/N秒;假设为N<-1,那么每滚一屏,延时|N|秒 一定要打开滚屏功能,因为不滚到可见位置,图片是不显示的,而且不能滚得太快,否则有些图片就来不及显示,如果使用crontab调度程序来控制采集任务,一个比较好的参数组合是 scrollMorePages = 5  scrollWindowRatio = -2
  2. 滚屏次数(scrollMorePages):额外滚屏次数,缺省值是0,表示不滚屏。 滚屏功能用于抓取AJAX网页上的数据,这些数据一开始没有从服务 器上下载下来,直到用户滚动浏览器屏幕并在窗口中显示这些数据时才下载。请注意,这个数字并不代表准确地滚屏次数,因为程序会根据网页长度变化情况自动调 整滚屏次数,这个数字可以看成是额外滚屏次数,即为了确保抓取最全的数据,在足够的滚屏次数之上额外增加的次数。常用取值:3 ~ 5。 详细使用方法参见如何自动滚屏抓取AJAX网站数据
  • 全屏显示:设置全屏显示,启动打数机时,窗口会放大到占满整个屏幕。参数设置以后,重新运行打数机才生效。在自动滚屏抓取网页时,通常要设置全屏显示,使用最大化的窗口可减少滚屏次数,提高抓取效率。
  • 定时器触发:一些动态网页会在加载之后,还会与服务器一直通信(即所谓的AJAX动态网页),导致爬虫以为网页没有加载完毕,一直等待而不执行抓取,一直等到超时,这样会严重拖慢抓取速度。勾选“定时器触发”后,在抓取这种动态网页时,爬虫会在一定时间后就执行抓取。在抓一些淘宝店铺的网页时通常需要勾选“定时器触发”。

Tips:勾选“定时器触发”后,有时也会在网页没有完全显示时,就执行抓取,这时就有可能漏抓内容。 那么,通常的使用原则是:先不设置此选项,如果发现确有必要才设置。

  • 关闭弹窗:在抓取一些网页时会有其他不相关弹窗弹出,勾选“关闭弹窗”之后,爬虫会自动关闭所有新近开启的火狐窗口。因此,这个功能不适用于您还需要继续使用火狐浏览器的情况下,因为您再新开一个火狐窗口,打数机将自动将其关闭。相反,适用于长期运行和无人看管的自动抓取情形,可以防止打开过多窗口导致内容耗完。
  • 配置浏览器:网页上很多大块的内容是不需要抓取的,主要是图片、插件、js代码等,如果同时加载这些内容,将大量消耗网络带宽和计算机处理能力,那就可以在“配置浏览器”功能中不勾选这些内容,从而提高抓取速度;
  • 账号管理:设置、切换集搜客网络爬虫账号。

高级

这些高级功能只在一些特殊场景下使用,通常保持缺省设置即可。

  • 终点标志:通常用在连贯翻页抓取,当翻到最后一页,网页上往往还有“下一页”标志,而且还能继续点击,通常这是一种不合常规的情形,那么爬虫就不容易决定是否该停下了。在这种情形下,可以告知爬虫去识别哪些特殊标志。其中一个标志是在网页的代码中含有void脚本,这个可以作为一个标志(勾选上);还有些网页在“下一页”超链接的href属性中放一些特殊字串,那么就可以设置自定义标志,把这些字串告知打数机。
  • 统计:统计打数机的重要内存参数。这些参数不用于运行管理打数机,而是在出现故障的时候,借以判断打数机的内存管理是否正常。

帮助

使用集搜客网络爬虫遇到不懂的问题时,点击帮助菜单总会找到您想要的答案。

  • 用户手册:链接到打数机用户手册;
  • 软件下载:链接到集搜客网络爬虫下载页面;
  • 产品首页:链接到集搜客大数据能力开放平台首页;
  • 关于:查看打数机软件版本信息。


操作窗口

操作窗口由搜索窗口和快捷菜单两部分组成。在此,可搜索主题名、启动某主题的抓取任务、管理主题的线索、添加抓取网址等操作。总之,这是管理抓取任务的主要窗口,如图4所示。

图4:DS打数机的操作窗口

搜索窗口

搜索窗口是用来搜索主题的。通过搜索框输入主题名,在忘记主题名的情况下,可利用通配符*进行模糊搜索,搜索结果就会显示在列表中,包括主题名、样本页面、单搜、集搜等4项信息。其中,

  • 单搜和集搜是快捷键,可以快速启动抓取任务;
  • 点击“单搜”即可设置抓取线索数量,并在管理窗口中启动抓取任务,但“单搜”是覆盖执行的,一次只允许启动一个主题的“单搜”功能;
  • “集搜”是“单搜”的升级版,每个主题都可以启动“集搜”功能,在设置抓取线索数量后,将弹出新的简化版DS打数机窗口(集搜窗口)来抓取网页数据;
  • 通过“单搜”、“集搜”的互相配合,能够启动多个爬虫窗口并行抓取数据,高效便捷。

Tips:具有菜单栏和操作窗口的DS打数机窗口只有一个,称为管理窗口;而简化版的DS打数机窗口可以有多个,但是没有菜单栏和操作窗口, 只是纯粹用于抓取数据,例如:集搜窗口就是单纯抓取数据的简化版窗口。

Tips:DS打数机最多允许20个集搜窗口,这是因为主题列表最多显示20个主题名,所以,一共能够启动20个集搜窗口,并且,每个主题的集搜 窗口都有固定的编号,与列表中的主题序号一一对应。如果运行了20个集搜窗口,还要再运行新主题的集搜窗口,那么根据新主题在主题 列表中的序号,DS打数机就会使用对应编号的集搜窗口,从而把先前运行的那个主题给强制停止了,所以,运行集搜窗口要注意主题序号 和集搜窗口编号的对应关系,以减少强制停止的情况。请使用控制面板中部的“窗口类型”和“窗口名称”予以分辨。


快捷菜单

在搜索窗口上点击鼠标右键,就会弹出快捷菜单,具体包含“抓取网页”、“浏览主题”、“统计线索”、“管理线索”和“排期”五项快捷操作。

  • 抓取网页:和“单搜”的作用是一样的,在设置抓取线索数量后就会启动抓取任务,当然,直接用“单搜”会更加快捷方便;
  • 浏览主题:是一个全搜索的快捷键,如果您忘了主题名,可以通过“浏览主题”来查看所有主题,点击后,搜索窗口就会把您拥有运行权限的所有主题显示出来;
  • 统计线索:用来查看主题下的线索状态,当您不清楚数据是否采集完整时,可用“统计线索”来查看,或者,点击状态面板上的“性能”按钮查看,这样会更便捷。其中,
    • “等待抓取”是指还没有运行的线索;
    • “抓取失败”是数据抓取失败的线索,但是不包括“规则不适用”类线索;
    • “规则不适用”是指抓取规则不适用的线索,也是失败的线索;
    • “成功抓取”是指使用规则成功采集了数据的线索;
  • 管理线索:可对线索做如下管理:
    • 添加”:点击可以批量添加抓取网址;
    • “激活失败线索”:可以把抓取失败的线索重新激活为“等待抓取”的状态;
    • “激活所有线索”:可以把所有线索(失败和成功的线索)激活为“等待抓取”的状态;
    • “撤销所有线索”:删除所有“等待抓取”、“抓取失败”和“规则不适用”的线索,把状态改为“成功抓取”;

Tips:激活所有线索是有限制的,一批只能激活1万条线索,如果您需激活的线索超过这个数字,请联络我们。 或者使用打数机重新抓取这些网址并生成线索。

  • 排期:用来查看和启动周期性抓取任务。周期性抓取任务是通过设置周期性调度参数来实现的,可设为人工启动或自动启动,能够实现定时自启动采集的效果,比如,每天增量采集最新出现的内容。


浏览器窗口

这是所见即所得的重要特征,在抓取过程中,该窗口显示原始网页内容,通过观察这个窗口,很容易判断抓取过程是否正常,比如,是否遭到目标网站封锁从而要求输入验证码。很多情况下,还可以人机交互半自动抓取,比如,输入验证码以后抓取过程又能自动运行下去了;又如,人工输入查询条件后,打数机接下去自动执行内容抓取。

Tips:DS打数机支持自动输入验证码功能,通过与打码平台对接,可以处理所有类型的验证码。参看《自动登录验证码识别》。


状态面板

用来描述采集任务运行状态的界面,包括任务的主题名、开始时间、线索数、剩余线索数以及服务器连接等信息。当服务器连接正常时,状态栏显示为,连接错误时显示为,如果出现连接错误,可以与我们联系。

图5:DS打数机的状态面板

Tips:线索数右边的字母表示具体的运行状态,在抓取数据过程中会快速闪动,当您怀疑运行状态不正常时,请将打数机停在的状态字母告诉我们(企业QQ:4008 770 662),我们帮您诊断问题。


日志

在抓取过程中,如果遇到一些特殊事件,就会在窗口下部的日志窗口中显示出来。每个事件包含的信息有时间、级别、线索编号、处理器名称和消息内容等。所有事件分成4级,代表:调试、提示、告警、错误,数字从1-4,数字越大代表严重程度越高。

如果是抓取失败,可以把线索编号记下来,到MS谋数台上,使用菜单“工具”->“加载规则”->“按线索号”,把目标网页和抓取规则同时加载到工作台上,并且用抓取规则检验目标网页是否适合,如果不适合,可修改抓取规则。

若有疑问可以集搜客网络爬虫
5

鲜花
1

握手

雷人

路过

鸡蛋

刚表态过的朋友 (6 人)

相关阅读

最新评论

GMT+8, 2024-12-22 13:18