第一个规则名:北京酒店1182家住宿
第二个规则名:北京特色住宿
第三个规则名:北京住宿531
问题:我想爬取缤客网站上的北京民宿数据(每条数据,8个字段,分别是酒店名称,区域,价格,评分等等),用集搜客订规则爬取到1万多条数据,发现数据大量重复,在Excel中清楚重复值后,数据集只剩16条数据信息。这个网页翻页div节点处没有“下一页”字样。我尝试了官网上提供的哪几种方法,都不管用。研究xpath,没弄清楚,xpath太复杂了。。请问这样的问题有什么方法解决吗?谢谢
ps:三个规则名分别是先后尝试了3遍,用不同的方法,最终都没有解决。哪位大神帮帮忙~~

举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-3-11 17:47

沙发
Fuller 管理员 发表于 2019-3-10 18:40:19 | 只看该作者
第一个规则的第一个问题:内容映射选择的抓取内容不能跨多个样例

如果第一个样例里面缺少某个抓取内容,这就有点麻烦了,因为第一个样例其实不足以代表所有样例的。只有自定义xpath了。这个抓取内容还是在第一个样例上做内容映射。既然没有,只能选一个有的内容做映射。比如,还是游客评价这个DOM节点,而在自定义xpath的时候,定位表达式和内容表达式分别写,定位表达式就是能在第一个样例上定位到一个节点的表达式,定位到游客评价就行,而内容表达式是可以自由写的,根据第二个样例的结构,写一个xpath,当出现是否为顾客挚爱时就能采集到它。

这个规则的第二个问题:样例复制的映射的时候,一定要选第一个样例和第二个样例,否则会漏数据,我看你选了第二个和第三个,那么总是采集不到第一个

这个网站上的主要的抓取内容都有class值,所以应该使用定位标志映射,提高规则的精度和适应性
举报 使用道具
板凳
trinawang 新手上路 发表于 2019-3-11 13:19:53 | 只看该作者
谢谢您。这个问题的关键问题是如何在没有“下一页”字样情况下,或者记号标记为@class情况下,都出现无法翻译爬取的情况,您能解答一下吗,谢谢。
举报 使用道具
地板
wangyong 版主 发表于 2019-3-11 14:02:19 | 只看该作者
trinawang 发表于 2019-3-11 13:19
谢谢您。这个问题的关键问题是如何在没有“下一页”字样情况下,或者记号标记为@class情况下,都出现无法翻 ...

没有“下一页”字样可以用相对翻页来实现翻页功能,原理是爬虫依次点击第一页,第二页……这样一直点下去
举报 使用道具
5#
trinawang 新手上路 发表于 2019-3-11 17:43:11 | 只看该作者
我按照您提供的“相对翻页”,出现2个问题:1集搜客只爬取了3页数据,自动终止,请问为什么。2数据为空值,请问是什么原因,如何解决。
举报 使用道具
6#
wangyong 版主 发表于 2019-3-11 17:47:06 | 只看该作者
trinawang 发表于 2019-3-11 17:43
我按照您提供的“相对翻页”,出现2个问题:1集搜客只爬取了3页数据,自动终止,请问为什么。2数据为空值, ...

解决方法参考楼上,做上定位标志映射
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 10:26