同一结构的网页中，有一个小地方的形式不同，如何解决？

xiaohongseeker1

下级网页的结构基本相似，但是有一个小地方的布局不同，导致数据采集缺失。
第一种形式：http://movie.mtime.com/209164/，这个地方首日票房和累计票房是纵向排列

第二种形式：http://movie.mtime.com/203642/，这个地方首日票房和累计票房是横向排列

由于样本页面是第一种，所以采集到的数据第二种的数据缺失。
按照第二种形式在同一主题下写了另一个规则，但是不知道为什么仍然没有采集到。求助

Fuller · 发表于 2018-2-14 21:34:47

同一主题下写两个规则，就是解决这个问题的。但是要注意，在这两个规则中设置关键内容，某个或者某几个关键内容必须能作为识别标志。网页不能总是被第一个规则都识别去了。

当两个网页的结构不同，要么是DOM节点的层次关系不同，要么是class或者id代表的css样式不同。如果DOM层次关系不同，那么生成的采集规则中的xpath就会不一样。如果两个规则的关键内容分别具有不同的xpath，那么就可以准确地判断网页应该套用哪个规则。如果class或者id不同，那么就在关键内容上做定位标志映射，也能用来做区分

Fuller · 发表于 2018-2-14 21:38:18

另外还有一个技巧，在命名主题工作台上的规则编号是用来排序的。比如，“规则-1”就排在“规则-2”前面，是按照字母顺序排的。用这个技巧可以控制DS打数机优先尝试哪个规则

xiaohongseeker1 · 发表于 2018-2-17 14:23:26

解决了。两个网页虽然结构有点不同，但是要采集数据的地方class是一致的，所以我先用上层节点的class做定位标志，后用下级节点做内容映射，这样就采集到想要的数据了。非常感谢~

瑛姑 · 发表于 2018-9-8 11:39:26

xiaohongseeker1 发表于 2018-2-17 14:23
解决了。两个网页虽然结构有点不同，但是要采集数据的地方class是一致的，所以我先用上层节点的class做定位 ...

我也出现类似的问题请问你是怎么用上层节点的class做定位的呢？

Fuller · 发表于 2018-9-8 16:01:53

瑛姑发表于 2018-9-8 11:39
我也出现类似的问题请问你是怎么用上层节点的class做定位的呢？

如上图，假设要采集手机的三个属性，他们有相同的@class='attr'，爬虫很可能会自动使用这个相同的class值，这样就分不清第一个、第二个、第三个了。如果使用他们的上级节点，有@class='p-attribute'，用这个值手工做定位标志映射给每个属性，那么，爬虫在生成定位规则的时候，以这个上级节点为基准去定位下面3个属性，就能分开了

同一结构的网页中，有一个小地方的形式不同，如何解决？

本帖子中包含更多资源

共 5 个关于本帖的回复最后回复于 2018-9-8 16:01

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

同一结构的网页中，有一个小地方的形式不同，如何解决？

本帖子中包含更多资源

共 5 个关于本帖的回复 最后回复于 2018-9-8 16:01

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2018-9-8 16:01