如图所示,在设置连续翻页的时候,下一页按钮中有好几个@class的节点,分别尝试之后选择了其中唯一一个可以实现翻页的@class节点
但是开始运行之后,第一第二页采集之后,又会跳回第一页再次循环,永远到不了第三页,请问是什么情况?
附上爱彼迎网址:https://zh.airbnb.com/rooms/3708846?s=5qWk9arw

微信截图_20181202112422.png
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2018-12-3 15:38

Fuller 管理员 发表于 2018-12-2 11:50:34 | 显示全部楼层
定位标志20181202114805.png

翻页记号你选的不对,你选的是页码2,如上图,而是 应该选择翻页的那个按钮,如下图

记号20181202115004.png
举报 使用道具
Fuller 管理员 发表于 2018-12-2 12:10:26 | 显示全部楼层
这个有点麻烦,等翻到第二页的时候,左边出现了上一页按钮,与下一页按钮的class都一样,另外,集搜客爬虫解析不了svg中的内容。所以,解决方法如下

定位20181202120632.png

1,如上图做翻页区映射和翻页记号映射
2,点击存规则
3,点击查看规则,可以看到生成的xpath是这样的
  1. //*[@class='_1rltvky']/svg[@aria-label="下一步"]
复制代码
4,因为集搜客解释不了svg,需要手工修改成
  1. //*[@class='_1rltvky']/*[@aria-label="下一步"]
复制代码

5,点击查看规则窗口中的“保存修改”按钮

这样就把规则手工修改好了,但是不要再点击“存规则”了,存规则按钮又会生成一次自动生成的规则,把手工修改的冲掉了,所以,需要再次手工修改和保存修改
举报 使用道具
zhangzhengzao 新手上路 发表于 2018-12-2 12:11:09 | 显示全部楼层
您好,非常感谢非常感谢,回复的好快...
不过我之前就是选择的翻页记号,并不是页码2,可能是因为我们的定位编号不同  让你看错了吧
不过我重新按照你截图里的 翻页记号BUTTON下的@type设置了翻页记号  运行之后反而变成了一直只重复采集第一页
请问是什么原因呢...
举报 使用道具
zhangzhengzao 新手上路 发表于 2018-12-2 12:33:16 | 显示全部楼层
哇,按照你的方法已经完全可以一直翻页了,非常感谢,跪拜大神!!
举报 使用道具
zhangzhengzao 新手上路 发表于 2018-12-2 15:56:13 | 显示全部楼层
接上面同一个问题:
用以上方法开始采集后,一共32页的评论区,每次都是采集完第7页就会自动中断,显示匹配失败。
本来以为是超时时长设置的太短,但是调长时间后还是同样的中断。另外在MS谋数台也已经匹配过网页和规则,并且通过验证。
请问现在是什么原因...
微信截图_20181202155032.png
举报 使用道具
zhangzhengzao 新手上路 发表于 2018-12-2 16:19:07 | 显示全部楼层
补充故障截图: 微信截图_20181202161836.png
举报 使用道具
Fuller 管理员 发表于 2018-12-2 18:59:02 | 显示全部楼层

试了一下,很难做一个通用的规则,到第七页结构就变了。可以在第七页上再做一个规则,主题名跟当前这个一样,但是规则编号另起一个。这样做以后,DS打数机运行的时候就会选择一个合适的
举报 使用道具
zhangzhengzao 新手上路 发表于 2018-12-2 23:58:27 | 显示全部楼层
很不好意思,我想问下如何在第七页上再做一个规则?
如果是新建另一个整理箱,到时候采集的数据直接将每一条都重复了两遍显示;如果是再做一个样例复制,就会替换掉前七页的样例复制规则;如果再建立一个新的翻页线索,会发现前七页的翻页线索会失效,第一页就直接匹配失败采集中断..
因为是新手,确实摸索不出如何再做一个规则,所以多多麻烦您了...真的非常感谢....
举报 使用道具
Fuller 管理员 发表于 2018-12-3 10:54:55 | 显示全部楼层
zhangzhengzao 发表于 2018-12-2 23:58
很不好意思,我想问下如何在第七页上再做一个规则?
如果是新建另一个整理箱,到时候采集的数据直接将每一 ...

过程是这样的:
1,把当前的规则加载好
2,点击工具条中间的“内容定位”,把内容定位不要勾,这样,鼠标在网页上的点击就有效了
3,点击网页进行翻页,一直翻到第七页
4,选择菜单 规则-》刷新页面结构
5,选择菜单 规则-》分析页面,你能看到好多失败
6,重新做内容映射,不用改整理箱,只需在DOM树上选择合适的节点,用右键菜单做内容定位
7,记得在“命名主题”工作台上,修改规则编号,不要跟第一个重了。
8,存规则
定位20181203105426.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:55