关键内容问题

jasonye09

我根据4个不同站点的特有的class属性勾上了关键内容，如图

意大利德国日本3个网址是没有问题的。问题就是美国网址，一直用了日本的规则，苦苦钻研的几天了，希望大神出手相助

主题名字：亚马逊BS数据一商详

美国站网址：https://www.amazon.com/Spigen-Liquid-Galaxy-Durable-Design/dp/B06XP4WS9Y/ref=zg_bs_3081461011_82?_encoding=UTF8&psc=1&refRID=373BCJP079H5X9D2AEG5

一直使用了日本的规则，本来是应该使用美国的规则。

苦苦钻研的几天了，希望大神出手相助

Fuller · 发表于 2017-4-27 22:02:30

因为定位偏好的原因。有两个解决方案，选择其中一个
1，点击“定位”按钮，选择“偏好class”。按理说你手工做了定位标志映射，应该用手工映射的这个class，但是却用了id。这是一个很特殊的情况，跟生成规则的算法有关。为了确保用上手工映射的class，那么采用方案2
2，定位标志映射的时候，映射给容器节点“标志”，而不是“国家”，因为容器节点可以在网页上划定一个范围，提高采集的精准度

jasonye09 · 发表于 2017-4-28 08:16:02

非常感谢大神，追问一句，我能不能直接用左上角的 amazon.com 和amazon. jp 的文本内容但是没有唯一的属性做定位，来做做关键内容，来区分不同的页面。

Fuller · 发表于 2017-4-28 08:58:27

jasonye09 发表于 2017-4-28 08:16
非常感谢大神，追问一句，我能不能直接用左上角的 amazon.com 和amazon. jp 的文本内容但是没有唯一的 ...

如果没有class或者id来区分，就需要自定义xpath，比如，把logo图的src中含有特殊标志，那么自定义xpath作为关键抓取内容，用contains()函数，从src中找这个标志

jasonye09 · 发表于 2017-4-28 12:19:49

非常感谢大神帮助！

关键内容问题

本帖子中包含更多资源

共 4 个关于本帖的回复最后回复于 2017-4-28 12:19

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

关键内容问题

本帖子中包含更多资源

共 4 个关于本帖的回复 最后回复于 2017-4-28 12:19

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2017-4-28 12:19