连续动作：采集悬浮窗信息—以微博为例

2017-1-13 14:14| 发布者: ym| 查看: 21370| 评论: 4

摘要: 一、操作步骤如何采集鼠标悬浮后的浮窗里显示的信息？这个需要用到连续动作中的悬浮功能。下面以微博搜索为例，演示如何采集浮窗里显示的博主信息。二、案例规则+操作步骤第一级采集规则：教程悬浮1第二级采集规 ...

配套软件版本：V9及更低 集搜客网络爬虫软件

新版本对应教程：V10及更高 数据管家——增强版网络爬虫 的对应教程是《鼠标悬停信息采集——以淘宝店铺动态评分为例》

注：集搜客GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”统一改为“任务”，在爬虫浏览器里先命名任务再创建规则，然后登录集搜客官网会员中心的“任务管理”里，就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、操作步骤

如何采集鼠标悬浮后的浮窗里显示的信息？这个需要用到连续动作中的悬浮功能。下面以微博搜索为例，演示如何采集浮窗里显示的博主信息。

二、案例规则+操作步骤

第一级采集规则：教程悬浮1
第二级采集规则：教程悬浮2
样本网址：http://s.weibo.com/weibo/%25E7%25BD%2591%25E7%25BB%259C%25E7%2588%25AC%25E8%2599%25AB&Refer=STopic_box
采集内容：博主名称、粉丝数、微博数、简介

第一步：定义第一级规则

1.1，打开集搜客网络爬虫，输入想要采集的样本网址并Enter，加载出完整的网页后，再点击右上角的“定义规则”，输入规则主题名，点击“查重”，提示“该名可以使用”，就可以标注网页信息了。

注意：这里的截图和文字说明都是集搜客网络爬虫版本，如果您安装的是火狐插件版，那么就没有“定义规则”按钮，而是应该运行MS谋数台。

1.2，第一级规则主要是为了设置连续动作，整理箱可以随意抓点信息。这里标注了博主名称，并对整理箱顶点做定位标志映射来精确采集范围，最后还要设置关键内容。

第二步：设置翻页与连续动作

2.1翻页抓取

2.1.1，要在第一级规则设置翻页，因为它抓的是列表页面，包含了翻页区域的范围，而第二级规则抓的是浮窗里的信息，不包括翻页区域。

2.1.2，在爬虫路线里新建“记号线索”，找到翻页区块和记号值“下一页”所在的节点，分别做线索映射。详细操作参考教程《设置翻页采集》。

2.2设置连续动作

2.2.1，新建动作，选择“悬浮”动作类型。

2.2.2，填写二级规则主题名，点击“谁在用”查看是否被占用。这里和层级抓取相同，填写的是预定名称，稍后制作二级规则。

2.2.3，获取定位表达式。点击微博头像定位，然后用“显示xpath”功能，选择其中一种模式，就可以得到xpath，这里是选择偏好@class得到的xpath。

2.2.4，检查xpath有效性。得到xpath后还要点击“搜索”检查一下是否满足需要，例如：发现的DOM节点总数为22，与网页上的微博头像数量是一致的，说明这个xpath是有效的，点击“后一个”可查看xpath定位到的每个头像节点。

2.2.5，把xpath填到定位表达式。将检验后正确的xpath粘贴到定位表达式处

2.2.6，填上动作名称，方便修改动作。

注意：高级设置可设置额外延时、起点、跨度等，大家可以先不设置，根据需要再设置，参数意义请看《连续动作的界面介绍》

2.3存规则

翻页和连续动作都设置完毕后，点击谋数台右上方“存规则”，保存好第一层规则，下面继续制作第二层规则。

第三步：定义第二级规则

3.1，新建规则。保存好第一层规则后，点击MS谋数台左上方的“规则”菜单->”新建”，清空当前的工作台之后，就可以建立第二级规则，操作参考前面的1.1步骤。

3.2 ，由于是同一个样本页面就不用切换网页了，但是要把浮窗显示出来并冻结住，才能做映射。冻结网页的操作如下：鼠标指在博主头像上，就会弹出浮窗，此时，按住快捷键Alt+E让“规则”菜单栏弹出，再使用向下箭头↓选择冻结页面，最后选择刷新页面结构，这样就可以对浮窗做标注映射了。

3.3，填写上级预定的规则主题名并点击“查重”，点击查重后出现以下提示，或“该名等待识别。可编辑：是”则代表填写正确。

3.4，映射抓取内容。把浮窗上想要采集的信息映射到整理箱，并对包含整个浮窗的节点做定位标志映射到整理箱顶节点，最后设置关键内容。

3.5，存规则。映射完想要的信息后，点击“存规则”，保存第二级规则。

第四步：爬数据

4.1，连续动作是连贯执行两级规则的，所以我们只要运行第一级规则。打开DS打数机，搜索出第一级规则，点击单搜/集搜运行，就会看到第一个博主的浮窗信息弹出并采集，然后再弹出第二个博主的浮窗信息并采集，以此类推，直到把当前页面上每一个博主的浮窗信息都采集完，就会自动跳到第二页，以同样的方式继续采集浮窗信息。