你好,在抓取网页某个区域的代码,在会员中心转换出错的问题!!!我的规则名是: aliexpress手表单属性sku抓取-cd网页代码测试

详情请参考一下贴图:

图一,在谋数台的规则运行完好,需要的数据都能抓下来,图片的链接代码能够抓下来,
图二,运行测试爬数据,将数据xml导入会员中心,导出数据,问题就在这里了:
图三,看excel表,问题就是有几个表头乱了,不知道是不是抓取的网页代码与转换中心的转换规则有所冲突

1.jpg (233.99 KB, 下载次数: 1209)

图一

图一

2.jpg (26.51 KB, 下载次数: 1306)

2.jpg

3.png (255.92 KB, 下载次数: 1190)

图三

图三
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2017-7-13 02:23

沙发
shengchengx 金牌会员 发表于 2017-7-11 09:51:36 | 只看该作者
在抓取这种带不同属性的值的是时候,如果在这一个字段中出现不同属性的时候,就会重复其他字段,然后显示一条的属性。
在抓取这种值的时候,把高级设置中把网页片段勾选上。
举报 使用道具
板凳
lizhizilt 中级会员 发表于 2017-7-11 13:58:02 | 只看该作者
那现在问题到底是出在抓取规则呢?还是会员中心的转换功能?
按照你的建议,如果把高级设置中的网页片段勾选上的话,那就是抓取了整个区域的网页代码了,这个我在例外的一条规则里面是可以完美转换的,我想知道如果只抓取图片链接代码这种情况下,xml转换成excel的时候,不能够一个excel的单元格就能保存好多条图片链接的代码吗?

我觉得问题的关键是出在了转换功能的转换规则上?因为转换后的文件表头的字段都乱套了。我想知道有什么办法可以解决,谢谢
举报 使用道具
地板
lizhizilt 中级会员 发表于 2017-7-11 19:00:18 | 只看该作者
亲爱的版主,可否帮忙解决下?
举报 使用道具
5#
Fuller 管理员 发表于 2017-7-11 20:32:04 | 只看该作者
lizhizilt 发表于 2017-7-11 19:00
亲爱的版主,可否帮忙解决下?

转换规则就定成这样了。因为你的规则是的树状结构,子sku 下面是一个子树,“文本”下面又是一棵子树。当会员中心进行转换的时候,会把子树交叉起来,比如,在处理“子sku”子树的内容时,会把商品标题,商品订单数等等都拷贝好几遍,分别与每个子sku串接在一起。所以,数量会大大增加。

为了避免这个问题,可以把每个子树都单独拿出来定义成另一个整理箱,在一个规则中可以有多个整理箱。每个整理箱在导出的时候都会有一张专门的excel表
举报 使用道具
6#
lizhizilt 中级会员 发表于 2017-7-11 21:24:33 | 只看该作者
好的,我再调试一下你说的这种方法,谢谢!!!
举报 使用道具
7#
lizhizilt 中级会员 发表于 2017-7-11 21:51:12 | 只看该作者
我又测试了,针对抓取某个区域的整体网页代码,我的规则没有问题,能够完美运行,转换成excel也很顺利,我用你说的方法,做成两个整理箱,一个整理箱按原来规则运行,另一个整理箱针对抓取区域内的照片代码,发现出来的效果就是因为采集照片的规则影响了导致表头乱套的,我现在想到的解决办法是,整体代码抓取下来,再自行对代码进行处理,自己用excel的vba处理出相应的图片代码。不知道有无其他办法了。
举报 使用道具
8#
lizhizilt 中级会员 发表于 2017-7-11 21:54:33 | 只看该作者
错误信息见图片

1.jpg (407.54 KB, 下载次数: 1183)

图片

图片
举报 使用道具
9#
Fuller 管理员 发表于 2017-7-11 22:45:04 | 只看该作者

在转换成excel的时候,把html片段中的属性也当成采集数据进行转换了,这个应该是转换程序的问题。我会把这个问题反馈给开发人员进行修改。

如果你能用vba编程,那就最好了,可以自己编写转换程序。原先我们有一个含有vba的excel宏,后来因为无法及时更新vba代码,到现在,那个程序扔掉了
举报 使用道具
10#
lizhizilt 中级会员 发表于 2017-7-12 00:45:32 | 只看该作者
Fuller 发表于 2017-7-11 22:45
在转换成excel的时候,把html片段中的属性也当成采集数据进行转换了,这个应该是转换程序的问题。我会把 ...

看来我要学习一下vba,我现在不会,所以暂时不采用图片链接代码先,你说的那个vba的程序我有,以我现在的水平还看不懂,学一下应该可以改进那个vba程序,比较忙,需要花点时间去学习,你可以改进一下会员中心的转换规则,避免今后一直存在这个问题!谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 09:39