配套软件版本:V9及更低 集搜客网络爬虫软件 新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《网络爬虫翻页采集列表数据》 注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 一、操作步骤(观看视频) 京东的列表网页有很多页,爬虫能不能自动翻页,采集每一页的数据?当然可以,做好翻页采集规则,爬虫就能自动翻页采数据。下面以京东列表页作为案例,操作步骤下: 二、案例规则+操作步骤
本案例是在上一篇文章《采集列表数据》的基础上,直接增加翻页设置,所以,前三步操作就不重复讲了,下面就直接讲第四步操作。 第四步:设置翻页 包括两个步骤:1. 设置翻页区 2. 设置翻页记号 4.1,设置翻页区 在当前页面,点击翻页区,发现整个翻页区变黄了,而且,在下面的DOM窗口,光标自动定位到了SPAN节点,右击这个节点,选中翻页映射→作为翻页区→新建线索。 4.2,设置翻页记号 此时,工作台自动切换到了爬虫路线。不用理会。继续在当前网页,点击翻页按钮“下一页”。在下面的DOM区,光标自动定位到了A节点,点开A节点,寻找text节点,找到后,右击这个text节点,选中翻页映射→作为翻页记号。 第五步:存规则,抓数据 5.1,点击G浏览器上的“存规则“按钮,保存规则。点击浏览器上的“爬数据“按钮,或者到打数机,启动采集,在DS打数机里看翻页是否成功,翻页采集成功的话,在本地DataScraperWorks文件夹中会生成多个xml文件,详情见文章《查看数据结果》。 Tips: 在实际的列表网页中,翻页区和翻页符号有各种各样的情形,如果碰到非本教程中的翻页符号,比如箭头,只有数字页码等,可以参阅《点击数字翻页》,《翻页符号是箭头》。 |
yhr1997: 谁能帮我看一下我的任务,也是无法用class但无法翻页,任务名:前程无忧翻页2
penguin1964: 主题名是“实例实例实例”,这是其中一个网址:<a href="https://www.amazon.es/gp/bestsellers/electronics/934190031/ref=pd_zg_hrsr_electronics" target="_blank">https://www.amazon.es/gp/bestsellers/electronics/934190031/ref=pd_zg_hrsr_electronics</a>,另一个网址:https:// ...
Fuller: 是公开的网站吗?如果是,请在使用交流那里,把任务名发出来,和第二个网址发出来,我帮您诊断问题,有些问题可以截图给您看 ...
penguin1964: 我有一个网址共2页,按照教程里面操作都采集下来了,但是添加同类型网址(也是2页)后,后添加的网址都只能采集第一页,原来的网址能采集2页,请问这是为什么? ...
___Flame: 为什么我点击翻页,上面说定位不了网页的位置呢
temprani: 问提描述:我要抓一个16页的数据,按照这个方法,抓完第16页后,又重新从低1页抓。反复注好多遍,不知道啥时候能停。怎么让他抓到16页就停下来呢? ...