采集图片网址输出字段带有src的话，说明规则有错，导入会员中心转excel也会解析失败

ym

本帖最后由 ym 于 2016-7-21 12:10 编辑

具体情况：
规则‘amxus_xqy_new’中的P1、P2、P3、P4、P5、P6、P7字段都是采集图片网址的，但是输出的xml中，采集字段带有src，把结果文件xml导入到会员中心转换为excel，由于字段带有src，就会被解析失败，因此，导出的excel表中缺少了图片网址的这几个字段。

字段中带有额外字符，这说明规则有错，因为正常输出的字段应该是与整理箱的一致，不会额外增加字符的。

是什么导致字段带有额外字符呢？
加载规则进行分析，发现是通过自定义xpath来采集图片网址的，如下图，因为自定义xpath没有用好，导致字段带有额外字符。这里存在以下两个错误。
错误1：抓取内容表达式中的xpath表达式前面有空格，注意xpath前面不允许有空格；
错误2：对于不同网页，不一定都有7个图片网址，那么对于可能抓不到的信息做自定义xpath时，一般是选择专用定位，并且定位标志表达式也是要填的。

正确的自定义xpath的设置是这样的，删掉xpath表达式的前后空格，选择文本内容和专用定位，并填上定位标志表达式。如下图

Fuller · 发表于 2016-7-21 15:33:57

最关键的一点是要选择“文本内容”，而不是“网页片段”，如果选择网页片段的话，会把html中的标签和属性等都原样存下来，就会变成

<img src="xxxx">

复制代码

但是这个规则更加复杂，因为xpath已经定位到src了，确选择了“网页片段”，那么就形成了这样的混合结构：

<P1 src="xxxx">

复制代码

其中P1是用户定义的抓取内容名字，而不是html网页片段，这种混合结构入库就会失败。真正的html网页片段是可以入库的。

采集图片网址输出字段带有src的话，说明规则有错，导入会员中心转excel也会解析失败

本帖子中包含更多资源

共 1 个关于本帖的回复最后回复于 2016-7-21 15:33

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集图片网址输出字段带有src的话，说明规则有错，导入会员中心转excel也会解析失败

本帖子中包含更多资源

共 1 个关于本帖的回复 最后回复于 2016-7-21 15:33

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2016-7-21 15:33