本帖最后由 ym 于 2016-7-21 12:10 编辑

具体情况:
规则‘amxus_xqy_new’中的P1、P2、P3、P4、P5、P6、P7字段都是采集图片网址的,但是输出的xml中,采集字段带有src,把结果文件xml导入到会员中心转换为excel,由于字段带有src,就会被解析失败,因此,导出的excel表中缺少了图片网址的这几个字段。
QQ截图20160721114137.png
QQ截图20160721114912.png
字段中带有额外字符,这说明规则有错,因为正常输出的字段应该是与整理箱的一致,不会额外增加字符的。
QQ截图20160721114940.png
是什么导致字段带有额外字符呢?
加载规则进行分析,发现是通过自定义xpath来采集图片网址的,如下图,因为自定义xpath没有用好,导致字段带有额外字符。这里存在以下两个错误。
错误1:抓取内容表达式中的xpath表达式前面有空格,注意xpath前面不允许有空格;
错误2:对于不同网页,不一定都有7个图片网址,那么对于可能抓不到的信息做自定义xpath时,一般是选择专用定位,并且定位标志表达式也是要填的。
QQ截图20160721115341.png

正确的自定义xpath的设置是这样的,删掉xpath表达式的前后空格,选择文本内容和专用定位,并填上定位标志表达式。如下图
QQ截图20160721115609.png

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-7-21 15:33

Fuller 管理员 发表于 2016-7-21 15:33:57 | 显示全部楼层
最关键的一点是要选择“文本内容”,而不是“网页片段”,如果选择网页片段的话,会把html中的标签和属性等都原样存下来,就会变成
  1. <img src="xxxx">
复制代码
但是这个规则更加复杂,因为xpath已经定位到src了,确选择了“网页片段”,那么就形成了这样的混合结构:
  1. <P1 src="xxxx">
复制代码
其中P1是用户定义的抓取内容名字,而不是html网页片段,这种混合结构入库就会失败。真正的html网页片段是可以入库的。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 18:14