总是在10多页的时候断掉,找不到失败的原因,请指教

https://www.yellowpages.co.th/en/heading/Travel%20Bureaus

规则名:泰铢好啊

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-10-24 14:14

沙发
Fuller 管理员 发表于 2018-10-22 14:34:40 | 只看该作者
第一次试验的时候,我也是到10页就中断了。第二次,我打开了自动滚屏,就没有中断。打开滚屏的方法:在DS打数机菜单上,选择 配置-》滚屏参数,把滚屏次数设置成>0的数字,我设置成2.

翻页到14页出现规则失败,应该是规则的适应性不够。可以加载了规则以后,不要勾选“内容定位”,然后翻页,翻页到14,用菜单 规则-》刷新页面界面,再用菜单 规则-》分析页面,看看失败的原因是什么
举报 使用道具
板凳
jinyi1020 初级会员 发表于 2018-10-22 14:58:56 | 只看该作者
谢谢!
举报 使用道具
地板
Fuller 管理员 发表于 2018-10-22 15:33:34 | 只看该作者



翻页到14页,这个class就跟第一页不一样了,所以,到这里就抓取失败了。可以用自定义xpath,提高灵活性,如下图



自定义xpath是
  1. .//*[@class='col-md-9 col-sm-9 col-xs-12 no-gutter' or @class='col-md-12 col-sm-12 col-xs-12 no-gutter']/h3/a/text()
复制代码
这个xpath包容了两种情况

class20180922093612.png (200.55 KB, 下载次数: 533)

class20180922093612.png
举报 使用道具
5#
jinyi1020 初级会员 发表于 2018-10-24 14:14:26 | 只看该作者
Fuller 发表于 2018-10-22 15:33
翻页到14页,这个class就跟第一页不一样了,所以,到这里就抓取失败了。可以用自定义xpath,提高灵活性 ...

非常感谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 21:53