为爬取北京民宿数据，翻页失败，数据重复

trinawang

第一个规则名：北京酒店1182家住宿
第二个规则名：北京特色住宿
第三个规则名：北京住宿531
问题：我想爬取缤客网站上的北京民宿数据（每条数据，8个字段，分别是酒店名称，区域，价格，评分等等），用集搜客订规则爬取到1万多条数据，发现数据大量重复，在Excel中清楚重复值后，数据集只剩16条数据信息。这个网页翻页div节点处没有“下一页”字样。我尝试了官网上提供的哪几种方法，都不管用。研究xpath，没弄清楚，xpath太复杂了。。请问这样的问题有什么方法解决吗？谢谢
ps:三个规则名分别是先后尝试了3遍，用不同的方法，最终都没有解决。哪位大神帮帮忙~~

Fuller · 发表于 2019-3-10 18:40:19

第一个规则的第一个问题：内容映射选择的抓取内容不能跨多个样例

如果第一个样例里面缺少某个抓取内容，这就有点麻烦了，因为第一个样例其实不足以代表所有样例的。只有自定义xpath了。这个抓取内容还是在第一个样例上做内容映射。既然没有，只能选一个有的内容做映射。比如，还是游客评价这个DOM节点，而在自定义xpath的时候，定位表达式和内容表达式分别写，定位表达式就是能在第一个样例上定位到一个节点的表达式，定位到游客评价就行，而内容表达式是可以自由写的，根据第二个样例的结构，写一个xpath，当出现是否为顾客挚爱时就能采集到它。

这个规则的第二个问题：样例复制的映射的时候，一定要选第一个样例和第二个样例，否则会漏数据，我看你选了第二个和第三个，那么总是采集不到第一个

这个网站上的主要的抓取内容都有class值，所以应该使用定位标志映射，提高规则的精度和适应性

trinawang · 发表于 2019-3-11 13:19:53

谢谢您。这个问题的关键问题是如何在没有“下一页”字样情况下，或者记号标记为@class情况下，都出现无法翻译爬取的情况，您能解答一下吗，谢谢。

wangyong · 发表于 2019-3-11 14:02:19

trinawang 发表于 2019-3-11 13:19
谢谢您。这个问题的关键问题是如何在没有“下一页”字样情况下，或者记号标记为@class情况下，都出现无法翻 ...

没有“下一页”字样可以用相对翻页来实现翻页功能，原理是爬虫依次点击第一页，第二页……这样一直点下去

trinawang · 发表于 2019-3-11 17:43:11

我按照您提供的“相对翻页”，出现2个问题：1集搜客只爬取了3页数据，自动终止，请问为什么。2数据为空值，请问是什么原因，如何解决。

wangyong · 发表于 2019-3-11 17:47:06

trinawang 发表于 2019-3-11 17:43
我按照您提供的“相对翻页”，出现2个问题：1集搜客只爬取了3页数据，自动终止，请问为什么。2数据为空值， ...

解决方法参考楼上，做上定位标志映射

为爬取北京民宿数据，翻页失败，数据重复

共 5 个关于本帖的回复最后回复于 2019-3-11 17:47

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

为爬取北京民宿数据，翻页失败，数据重复

共 5 个关于本帖的回复 最后回复于 2019-3-11 17:47

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2019-3-11 17:47