本帖最后由 ym 于 2016-7-21 12:10 编辑
具体情况:
规则‘amxus_xqy_new’中的P1、P2、P3、P4、P5、P6、P7字段都是采集图片网址的,但是输出的xml中,采集字段带有src,把结果文件xml导入到会员中心转换为excel,由于字段带有src,就会被解析失败,因此,导出的excel表中缺少了图片网址的这几个字段。
字段中带有额外字符,这说明规则有错,因为正常输出的字段应该是与整理箱的一致,不会额外增加字符的。
是什么导致字段带有额外字符呢?
加载规则进行分析,发现是通过自定义xpath来采集图片网址的,如下图,因为自定义xpath没有用好,导致字段带有额外字符。这里存在以下两个错误。
错误1:抓取内容表达式中的xpath表达式前面有空格,注意xpath前面不允许有空格;
错误2:对于不同网页,不一定都有7个图片网址,那么对于可能抓不到的信息做自定义xpath时,一般是选择专用定位,并且定位标志表达式也是要填的。
正确的自定义xpath的设置是这样的,删掉xpath表达式的前后空格,选择文本内容和专用定位,并填上定位标志表达式。如下图
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 1 个关于本帖的回复 最后回复于 2016-7-21 15:33