|
本帖最后由 ym 于 2016-12-23 10:16 编辑
一、通过页码输入框跳到中断的那页继续往下翻页采集
如果每一页的网址都是一样的,无法通过构造页码网址来单独采集每一页,并且很容易翻页到中间就断掉,这种情况就要看看是否存在页码输入框,如果有的话,就可以在规则里设置连续动作(输入+点击),让爬虫跳转到断掉的那一页,继续往下翻页采集,连续动作的设置如下:
1.1、在原来规则的基础上,再设置连续动作就可以了,首先是把规则加载出来
1.2、点击“页码输入框”定位,再点击左侧的“显示xpath”按钮,选择一种模式(常用class/id定位)后就会自动生成xpath,点击一下右侧的“搜索”按钮,检验一下是否只定位到一个节点。
1.3、在连续动作窗口里,输入当前的主题名,建立“输入”动作,在“输入关键词”方框里填上要跳转的页码数值,再拷贝上一步里得到的xpath,粘贴到“定位表达式”方框里,最后给动作名称起个名字,就完成了“输入”动作的设置。
1.4、与上面操作一样,先定位并生成“跳转”按钮的xpath,再建立第二个动作“点击”,把xpath填上就可以了。
1.5、保存规则,然后试抓一遍,检验一下是否执行成功,如果DS打数机的日志提示“定位不到节点***”,就说明xpath不合适,就要修改连续动作里的xpath了。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 13 个关于本帖的回复 最后回复于 2019-12-17 13:33