11111
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-3-23 09:53

沙发
xandy 论坛元老 发表于 2017-3-22 15:15:14 | 只看该作者
测试你的规则出现下面的提示:

你去教程板块搜索这句话去修改你的规则~
举报 使用道具
板凳
ym 版主 发表于 2017-3-22 15:50:35 | 只看该作者
点规则的测试,在输出信息里看到大部分是没抓到图片网址的,检查了一下是因为不同商品图片的img节点的class值稍有不同,如图一和图二所示。


解决方法:上层节点A的class值是不变的,把它做定位标志映射给图片,就能抓全了


举报 使用道具
地板
DAYUE888 中级会员 发表于 2017-3-22 17:07:55 | 只看该作者
不行!我换成最上面的class 都不行
举报 使用道具
5#
DAYUE888 中级会员 发表于 2017-3-22 17:08:08 | 只看该作者
ym 发表于 2017-3-22 15:50
点规则的测试,在输出信息里看到大部分是没抓到图片网址的,检查了一下是因为不同商品图片的img节点的class ...

不行!我换成最上面的class 都不行
举报 使用道具
6#
DAYUE888 中级会员 发表于 2017-3-22 17:10:26 | 只看该作者
ym 发表于 2017-3-22 15:50
点规则的测试,在输出信息里看到大部分是没抓到图片网址的,检查了一下是因为不同商品图片的img节点的class ...

还是不行啊,亲。我已经把class换成picRind了
举报 使用道具
7#
ym 版主 发表于 2017-3-22 18:12:31 | 只看该作者
本帖最后由 ym 于 2017-3-22 18:15 编辑

可以采集到图片,如下图,其中null的也是因为结构不同才会漏采的,你可以自己分析一下



要兼容两种结构,需要自定义xpath来解决,下面是对图片自定义xpath的截图,标题和其它的就参考教程《自定义xpath:精确采集》解决
  1. //*[@class='picRind j-p4plog'] | //*[@class='picRind ']
复制代码


举报 使用道具
8#
DAYUE888 中级会员 发表于 2017-3-22 18:19:40 | 只看该作者
ym 发表于 2017-3-22 18:12
可以采集到图片,如下图,其中null的也是因为结构不同才会漏采的,你可以自己分析一下

亲,能把自定义xpath 内容复制给我吗。。。
举报 使用道具
9#
DAYUE888 中级会员 发表于 2017-3-22 18:35:06 | 只看该作者
ym 发表于 2017-3-22 18:12
可以采集到图片,如下图,其中null的也是因为结构不同才会漏采的,你可以自己分析一下

用了你的自定义xpath,图片链接全没了。。。
举报 使用道具
10#
shenzhenwan10 金牌会员 发表于 2017-3-22 19:04:10 | 只看该作者
图片网址在img的src里, 所以你的xpath应该是
.//*[@class='picRind j-p4plog'] | //*[@class='picRind ']/img/@src
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 15:38