配套软件版本:V9及更低 集搜客网络爬虫软件 新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《鼠标悬停信息采集——以淘宝店铺动态评分为例》 注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 一、操作步骤 如何采集鼠标悬浮后的浮窗里显示的信息?这个需要用到连续动作中的悬浮功能。下面以微博搜索为例,演示如何采集浮窗里显示的博主信息。 二、案例规则+操作步骤
第一步:定义第一级规则 1.1,打开集搜客网络爬虫,输入想要采集的样本网址并Enter,加载出完整的网页后,再点击右上角的“定义规则”,输入规则主题名,点击“查重”,提示“该名可以使用”,就可以标注网页信息了。 注意:这里的截图和文字说明都是集搜客网络爬虫版本 ,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台。 1.2,第一级规则主要是为了设置连续动作,整理箱可以随意抓点信息。这里标注了博主名称,并对整理箱顶点做定位标志映射来精确采集范围,最后还要设置关键内容。 第二步:设置翻页与连续动作 2.1翻页抓取 2.1.1,要在第一级规则设置翻页,因为它抓的是列表页面,包含了翻页区域的范围,而第二级规则抓的是浮窗里的信息,不包括翻页区域。 2.1.2,在爬虫路线里新建“记号线索”,找到翻页区块和记号值“下一页”所在的节点,分别做线索映射。详细操作参考教程《设置翻页采集》。 2.2设置连续动作 2.2.1,新建动作,选择“悬浮”动作类型。 2.2.2,填写二级规则主题名,点击“谁在用”查看是否被占用。这里和层级抓取相同,填写的是预定名称,稍后制作二级规则。 2.2.3,获取定位表达式。点击微博头像定位,然后用“显示xpath”功能,选择其中一种模式,就可以得到xpath,这里是选择偏好@class得到的xpath。 2.2.4,检查xpath有效性。得到xpath后还要点击“搜索”检查一下是否满足需要,例如:发现的DOM节点总数为22,与网页上的微博头像数量是一致的,说明这个xpath是有效的,点击“后一个”可查看xpath定位到的每个头像节点。 2.2.5,把xpath填到定位表达式。将检验后正确的xpath粘贴到定位表达式处 2.2.6,填上动作名称,方便修改动作。 注意:高级设置可设置额外延时、起点、跨度等,大家可以先不设置,根据需要再设置,参数意义请看《连续动作的界面介绍》 2.3存规则 翻页和连续动作都设置完毕后,点击谋数台右上方“存规则”,保存好第一层规则,下面继续制作第二层规则。 第三步:定义第二级规则 3.1,新建规则。保存好第一层规则后,点击MS谋数台左上方的“规则”菜单->”新建”,清空当前的工作台之后,就可以建立第二级规则,操作参考前面的1.1步骤。 3.2 ,由于是同一个样本页面就不用切换网页了,但是要把浮窗显示出来并冻结住,才能做映射。冻结网页的操作如下:鼠标指在博主头像上,就会弹出浮窗,此时,按住快捷键Alt+E让“规则”菜单栏弹出,再使用向下箭头↓选择冻结页面,最后选择刷新页面结构,这样就可以对浮窗做标注映射了。 3.3,填写上级预定的规则主题名并点击“查重”,点击查重后出现以下提示,或“该名等待识别。可编辑:是”则代表填写正确。 3.4,映射抓取内容。把浮窗上想要采集的信息映射到整理箱,并对包含整个浮窗的节点做定位标志映射到整理箱顶节点,最后设置关键内容。 3.5,存规则。映射完想要的信息后,点击“存规则”,保存第二级规则。 第四步:爬数据 4.1,连续动作是连贯执行两级规则的,所以我们只要运行第一级规则。打开DS打数机,搜索出第一级规则,点击单搜/集搜运行,就会看到第一个博主的浮窗信息弹出并采集,然后再弹出第二个博主的浮窗信息并采集,以此类推,直到把当前页面上每一个博主的浮窗信息都采集完,就会自动跳到第二页,以同样的方式继续采集浮窗信息。 4.2,打开第二级规则的数据文件夹,把里面的xml转为excel,就能看到如上图的数据。 上篇文章:《把信息与连续动作步骤对应起来》 下篇文章:《连续动作:设置自动返回上级页面》 |