我根据4个不同站点的特有的class属性勾上了关键内容,如图

意大利德国日本3个网址是没有问题的。问题就是美国网址,一直用了日本的规则,苦苦钻研的几天了,希望大神出手相助


主题名字:亚马逊BS数据一商详


美国站网址:https://www.amazon.com/Spigen-Liquid-Galaxy-Durable-Design/dp/B06XP4WS9Y/ref=zg_bs_3081461011_82?_encoding=UTF8&psc=1&refRID=373BCJP079H5X9D2AEG5


一直使用了 日本的规则,本来是应该使用 美国的规则。

苦苦钻研的几天了,希望大神出手相助
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-4-28 12:19

沙发
Fuller 管理员 发表于 2017-4-27 22:02:30 | 只看该作者
因为定位偏好的原因。有两个解决方案,选择其中一个
1,点击“定位”按钮,选择“偏好class”。按理说你手工做了定位标志映射,应该用手工映射的这个class,但是却用了id。这是一个很特殊的情况,跟生成规则的算法有关。为了确保用上手工映射的class,那么采用方案2
2,定位标志映射的时候,映射给容器节点“标志”,而不是“国家”,因为容器节点可以在网页上划定一个范围,提高采集的精准度
举报 使用道具
板凳
jasonye09 初级会员 发表于 2017-4-28 08:16:02 | 只看该作者
非常感谢大神,  追问一句,我能不能直接 用左上角的 amazon.com  和amazon. jp 的文本内容但是没有唯一的属性做定位,来做做 关键内容,来区分不同的页面。
举报 使用道具
地板
Fuller 管理员 发表于 2017-4-28 08:58:27 | 只看该作者
jasonye09 发表于 2017-4-28 08:16
非常感谢大神,  追问一句,我能不能直接 用左上角的 amazon.com  和amazon. jp 的文本内容但是没有唯一的 ...

如果没有class或者id来区分,就需要自定义xpath,比如,把logo图的src中含有特殊标志,那么自定义xpath作为关键抓取内容,用contains()函数,从src中找这个标志
举报 使用道具
5#
jasonye09 初级会员 发表于 2017-4-28 12:19:49 | 只看该作者
非常感谢大神帮助!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 05:28