MS谋数台的操作界面

2015-8-8 17:07| 发布者: ym| 查看: 25638| 评论: 0

摘要: 主界面 MS谋数台是定义抓取规则的软件工具,主界面分成三个区域 网页结构窗口:(左上部区域)用于定位被抓取的内容 工作台窗口:(右上部区域或者浮动工作台)大部分定义抓取规则的操作都在此区域完成 显示窗 ...

主界面

图1:主界面

MS谋数台是定义抓取规则的软件工具,主界面分成三个区域

  • 网页结构窗口:(左上部区域)用于定位被抓取的内容
  • 工作台窗口:(右上部区域或者浮动工作台)大部分定义抓取规则的操作都在此区域完成
  • 显示窗口:(下部区域)用于查看定义的抓取规则和抓取结果

下面将分别详细讲解。


网页结构窗口

定义抓取规则的时候,需要告诉谋数台,被抓取的内容在网页的什么位置,此窗口区域把网页结构展现出来,方便用户定位抓取内容,如图2所示。

图2:网页结构窗口

  • 谋数台在加载完网页后,网页结构就会显示出来,每一个网页元素显示成一行,包括网页标签、id、class、定位编号等4项信息。
  • 网页结构和浏览器是联动的,点击浏览器中的被抓取内容,网页结构窗口会自动定位到该内容所在行,并提示位置编号;反之,选择网页结构中的一行,浏览器中的相应内容会有闪烁的红框,可辅助用户精确定位抓取内容。

Tips:谋数台加载了网页后好久不出现网页结构怎么办?可选择菜单“文件”->“刷新网页结构”,就会告诉谋数台不要等待了,即刻显示网页结构。


工作台窗口

大部分定义抓取规则的操作都在此区域完成,根据不同目的,划分成多个页签窗口(tab),每个代表一个工作台。只需前三个工作台,即可定义一个完整的抓取规则,而且通常按照顺序选择页签,如图3所示。

图3:工作台窗口

  1. 命名主题工作台:给抓取规则起一个名字,方便以后查找。
  2. 创建规则工作台:您要抓什么内容?给每个被抓取内容取个名字,存放在一个整理箱中,就像一张excel数据表;然后告诉谋数台,这些内容从网页的什么位置获得;最后,谋数台就会自动为您生成抓取规则,在此工作台上,您可立马进行检验。
  3. 爬虫路线工作台:拓展DS打数机抓取范围,DS打数机可以像蜘蛛一样,从起始网页开始,顺着互联网这张网无限延伸,抓取有关联网页的数据。
  4. 搜规则工作台:可搜索自己完成的抓取规则,搜到以后可以加载到工作台上进行修改。
  5. 搜主题工作台:可搜索自己创建的主题名,查看主题规则的完成状态。

Tips:您对爬虫路线感觉陌生吗?请看下图,爬虫路线与蜘蛛的丝线一样,蜘蛛可以沿着丝线向外扩展爬行范围,网络爬虫就是自动化蜘蛛,沿着线索可以抓取更多网页。


显示窗口

用于查看定义的抓取规则和抓取结果,还有一个浏览器供您查看网页内容。划分成多个页签窗口(tab),除浏览器窗口外,其它窗口都是做了相应操作以后才有内容,如图4所示。

图4:显示窗口

  • 浏览器窗口:就是一个普通的网页浏览器,用于查看被抓取的内容,而且与网页结构窗口联动。
  • 数据规则窗口:怎样把网页内容抓取下来?是由一套数据规则完成的,谋数台自动生成,用户通过这个窗口查看。
  • 线索规则窗口:怎样扩展爬行范围?是由一套线索规则完成的,谋数台自动生成,用户通过这个窗口查看。
  • 校验规则窗口:生成的抓取规则有效吗?是由一套校验规则检验的,谋数台自动生成,用户通过这个窗口查看。
  • 输出信息窗口:抓到的数据什么样子?在这个窗口展示,还有其他操作的输出信息也展示在这个窗口,在相应的手册章节会详细讲解。


菜单栏

Tips:在主界面的各个区域上点击鼠标右键可以看到弹出菜单,都是一些便捷操作,尤其网页结构窗口创建规则工作台上的弹出菜单, 使用频率最高,将在专门的手册章节进行讲解,这里只介绍菜单栏上的菜单,如图5所示。

图5:菜单栏

  • “文件”菜单
    • 新建:为了定义一个新的抓取规则,重新建立一个工作台,将清空原有工作台上的抓取规则。
    • 冻结页面:保持网页结构不变。有些网站在加载网页内容之后,还会与服务器实时通信,获得新数据,这样不仅会改变网页内容,还会改变网页结构。为了保持页面内容、结构不变,需要勾选冻结页面,确保定义抓取规则期间是稳定不变的。
    • 后续分析:在加载抓取规则时,有些样本网页的内容不是一次加载好,而是陆陆续续加载;也有一些网页甚至要做鼠标点击才能看到需要的内容。如果所需内容还没有显示出来就去匹配抓取规则,会找不到对应抓取内容并报错。为避免报错,需要手工滚动浏览器屏幕或者做些点击操作,等待网页内容完全加载后,点击“后续分析”完成加载规则操作。
    • 刷新网页结构:如果出现“定位不到网页位置”这种情况,需点击本菜单,才能定位到抓取内容
    • 分析页面:如果已经有一个抓取规则加载到工作台上,可输入一个新的网址,待加载完网页之后点击本菜单,判断规则是否符合当前页面。
    • 转存到:将抓取规则从当前服务器转存到另一个服务器(主要针对 企业版用户)。
    • 退出:退出MS谋数台。

  • “配置”菜单
    • 自动滚屏模式:有些网页在打开后,一个窗口页面往往无法显示全部数据,需要手动滚动鼠标或者拖曳页面滚动条到底部来查看,勾选自动滚屏模式,可自动实现上述操作,确保数据能够被完整的抓取下来。
    • 页面布局:分为固定工作台和移动工作台。如果您用笔记本电脑,屏幕太小,选择移动工作台试试。勾选固定工作台时,右边的工作台固定不可拖曳,而勾选移动工作台,则工作台以悬浮式展现,网页结构窗口和显示窗口可任意调整比例。切换页面布局选项,效果会在重启MS谋数台后生效。
    • 账号管理:对用户登录进行管理,系统默认保存用户上次的登录账号,点击账号管理,用户可以自由切换不同账号进行登录。
    • 线索定位:在创建爬虫线索时,用户可以选择网页中的id或class来定位目标节点(参看集搜客网络爬虫的名词解释#定位标志。系统提供了6种选择供用户对网页节点进行定位,如图6所示。

    • 图6:线索定位

      • 绝对定位:系统从网页最顶端一级开始定位目标节点的路径。
      • 任何一个:系统根据网页结构选择用id或class定位目标节点路径。
      • 偏好id:系统偏好选择用id来定位目标节点的路径。
      • 偏好class:系统偏好选择用class来定位目标节点的路径。
      • 只用id:系统只选择用id定位目标节点路径
      • 只用class:系统只选择用class定位目标节点路径。

  • “工具”菜单
    • 加载规则:用户在创建规则抓取数据时,可能会出现抓取目标数据失败的情况,用户可以通过加载规则来分析失败的原因,每个抓取失败的网页会生成对应的线索号,因此用户可以选择按线索号或者按主题名来加载失败网页对应的规则。
    • 切换规则:有些网页结构比较复杂,抓取目标数据可能需要在同一个主题下创建不同的规则,那么在分析页面的时候,使用切换规则按钮可以实现规则间的自由切换。
    • 开发者工具:如果谋数台自动生成的抓取规则无法满足要求,用户可以自己编写JS代码控制集搜客网络爬虫,在正式使用自定义代码前,使用一下工具测试代码是否正确。
      • 测试页面JS:不需要特殊运行环境,只要是标准的JS代码,就能在这个窗口进行测试,比如,用XPathEvaluator从网页上抓取一片内容。
      • 测试插件JS:需要调用集搜客网络爬虫特有的网页抓取功能,这些功能以JS对象的方式开放给用户,具体参看《集搜客网络爬虫手册》。
      • 自定义爬虫循环:打数机有一套循环运行机制,如果想增强它的能力,比如,抓取瀑布流网页或者网页版QQ聊天内容,需要在大循环中套小循环,那么在这个窗口中测试小循环的正确性,具体参看《集搜客网络爬虫手册》。
    • 查看命名空间:有些网页内容不是标准的HTML内容,而是SVG图表上的数据,或者其它格式的数据,他们分属不同于HTML的命名空间,本菜单可以统计 样本页面上出现的所有命名空间

  • “帮助”菜单
    • 手册:链接到集搜客网络爬虫用户手册。
    • 下载:链接到集搜客网络爬虫下载页面。
    • 主页:链接到集搜客大数据能力开放平台首页。
    • 关于:查看集搜客网络爬虫软件版本信息。

工具栏

图7:工具栏

工具栏是如图7所示的位置,用户在上面可执行的操作有:

  • 网址输入框:像其它浏览器上网一样,输入一个网址,敲回车键,就能在 浏览器窗口看到网页显示了出来,这个网页称为样本页面,用户可以在其上定义抓取规则。
  • 内容定位:指工具栏上这个按钮:,勾选以后,就不再允许网页跳转了,点击网页上的超链接,会提示这个超链接在网页上的定位编号,而不会跳转到新网页,确保定义抓取规则时样本页面不变。
  • 是样本页面:指工具栏上这个标志:,定义抓取规则的时候,样本页面不能换,如果换了,这个标志会变成红色,提醒用户不能再定义抓取规则了。
  • 存规则:点击这个按钮,把定义好的规则保存下来,供DS打数机使用该规则抓取数据。
  • 爬数据:点击这个按钮,启动DS打数机爬取数据


状态栏

状态栏是如图8所示的位置,显示谋数台的运行状态

图8:状态栏

  • 左边显示MS谋数台的执行状态,执行某些复杂操作的时候,显示的状态会不断变化,代表计算过程和结果。比如,加载完样本页面的时候,会显示“完成”,通知用户可以做抓取规则了。
  • 右面显示与服务器的连接状态。当图标为绿色,说明服务器正常连接;当图标为红色,说明服务器无法正常连接,这样就不能保存规则,出现该状态的原因有三种:服务器地址输入错误、网络不畅、服务器有问题,可联络我们协助解决。
若有疑问可以集搜客网络爬虫
16

鲜花

握手

雷人
1

路过

鸡蛋

刚表态过的朋友 (17 人)

相关阅读

最新评论

GMT+8, 2024-12-4 01:20