配套软件版本:V9及更低 集搜客网络爬虫软件 新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《自动滚屏采集瀑布流网页——以今日头条新闻为例》 注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 常见的网页大多数在页面下方会有翻页的按钮,比如“下一页”、“加载更多”,这类网页设置翻页就可以搞定,但是瀑布流网页没有这些按钮,而是随着鼠标滚动会不停的加载更多内容,这种很长很长的没有翻页按钮的网页就是瀑布流网页。 爬虫只能采集网页上已经加载显示的内容,而瀑布流网页的内容不是一次性加载的,每滚屏一次才会显示更多的内容,所以采集瀑布流网页需要用到滚屏动作。 一、操作步骤 下面用今日头条网作为案例,给大家演示一遍用滚屏动作采集瀑布流网页,操作步骤如下: Tips:本文讲解的滚屏动作和滚轮动作是有区别的,滚屏相当于滚动网页最右边的滚动条;而滚轮是仿真鼠标轮子的滚动,所以滚轮动作可以实现一些特殊需求,如下:
二、案例规则+操作步骤
第一步:打开网页 1.1打开集搜客网络爬虫,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则; 注意:这里的截图和文字说明都是集搜客网络爬虫版本 ,如果您安装的是火狐插件版,那么就没有“定义规则”按钮,而是应该运行MS谋数台 1.2,在工作台中输入主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。 Tips:为了能准确定位网页信息,点击定义规则会把整个网页定格住,不能跳转网页链接,再次点击定义规则,才会恢复回普通的网页模式。 第二步:标注信息 2.1标注是针对网页的文本信息来操作的,双击目标信息就会选中它,在弹出小窗中输入标签名,打勾确认或Enter。首次标注还要输入整理箱名称,即存数据的表名。这也是标签与网页信息建立映射关系的过程。 2.2 由于链接是属性节点,不是文本节点,无法直接在页面上标注,所以要手动做内容映射,点击网页的标题,定位到一个网页标签节点A,展开它找到@href节点后,右击@href然后选择内容映射->链接。 2.3对“标题”勾选“关键内容”,通常是对必然显示的信息勾选关键内容,用于给爬虫判断是否执行采集,防止数据抓取不完全。 第三步:样例复制 3.1 设置样例复制,是为了把页面上结构相同的信息全部抓取下来,首先选中容器节点“新闻列表”,勾选“启用”,找到新闻列表的第一条和第二条新闻的节点分别映射给样例1和样例2。详细操作可以看文章《采集列表数据》来掌握。 第四步:设置连续动作—滚屏 4.1在连续动作工作台新建一个滚屏动作,因为滚屏后的网页结构没有变化,仍然可以用当前规则采集,所以这里的目标主题名就填写当前规则本身的主题名。 4.2滚屏动作的参数可以根据自己的需要调试。滚屏动作的高级设置一般保持默认就行,滚屏参数说明如下:
注意:设置了滚屏动作, DS打数机就要做如下两个设置: (1)必须关闭DS打数机的自动滚屏功能 因为DS打数机的自动滚屏会让爬虫一口气滚到底,但真正的瀑布流是滚不到底的,而滚屏动作是要滚一下抓一下,所以如果不关闭自动滚屏,就不会执行滚屏动作。设置方法:点击DS打数机的配置菜单->滚屏参数,然后把滚屏次数设置成 0 就可以关闭自动滚屏。 (2)根据需要设置重复内容强制中断 DS打数机不断地企图往下滚屏,必须告诉它什么时候停止,在MS谋数台的滚屏动作里,可以通过总共滚屏数来限定滚多少屏就停止。 如果总共滚屏数设置成-1,就会一直滚屏停不下来,这时就必须在DS打数机上打开重复内容,这样当爬虫发现抓到的都是重复内容,就会停止滚屏动作。设置方法:点击DS打数机的高级菜单->终点标志->勾上重复内容。 第五步:存规则,抓数据 5.1 点击测试,看到输出的结果都正常,说明规则没有问题,可以使用了,然后点击“存规则”来保存规则,然后就可以点击“爬数据”来采集数据了。 5.2 你会发现抓到了很多个xml文件,这是因为瀑布流网页是一边滚屏一边抓取的,所以,只要保留最大的那个xml文件就可以了。 三、新功能 没有尽头的瀑布流网页会随着滚屏内容无限增长下去,导致爬虫的内存不够而崩溃,新版本集搜客网络爬虫(V8.3.1)增加了清除老内容功能,具体参看教程《爬wish等瀑布流网站时使用清除老数据功能》 上篇文章:《连续动作:自动选择下拉菜单采集数据》 下篇文章:《把信息与连续动作步骤对应起来》 |
Fuller: 需要先在整理箱中创建“链接”这个抓取内容。或者右击菜单有一项“新建抓取内容”