本帖最后由 ym 于 2016-7-21 12:10 编辑

具体情况:
规则‘amxus_xqy_new’中的P1、P2、P3、P4、P5、P6、P7字段都是采集图片网址的,但是输出的xml中,采集字段带有src,把结果文件xml导入到会员中心转换为excel,由于字段带有src,就会被解析失败,因此,导出的excel表中缺少了图片网址的这几个字段。


字段中带有额外字符,这说明规则有错,因为正常输出的字段应该是与整理箱的一致,不会额外增加字符的。

是什么导致字段带有额外字符呢?
加载规则进行分析,发现是通过自定义xpath来采集图片网址的,如下图,因为自定义xpath没有用好,导致字段带有额外字符。这里存在以下两个错误。
错误1:抓取内容表达式中的xpath表达式前面有空格,注意xpath前面不允许有空格;
错误2:对于不同网页,不一定都有7个图片网址,那么对于可能抓不到的信息做自定义xpath时,一般是选择专用定位,并且定位标志表达式也是要填的。


正确的自定义xpath的设置是这样的,删掉xpath表达式的前后空格,选择文本内容和专用定位,并填上定位标志表达式。如下图


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-7-21 15:33

沙发
Fuller 管理员 发表于 2016-7-21 15:33:57 | 只看该作者
最关键的一点是要选择“文本内容”,而不是“网页片段”,如果选择网页片段的话,会把html中的标签和属性等都原样存下来,就会变成
  1. <img src="xxxx">
复制代码
但是这个规则更加复杂,因为xpath已经定位到src了,确选择了“网页片段”,那么就形成了这样的混合结构:
  1. <P1 src="xxxx">
复制代码
其中P1是用户定义的抓取内容名字,而不是html网页片段,这种混合结构入库就会失败。真正的html网页片段是可以入库的。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 12:06