规则是“aliexpress单品抓取-网页代码版”
https://www.aliexpress.com/store ... 32_32807407823.html


问题1:在详情描述模块那里,我用高级设置抓取这部分的网页代码,在测试里能够体现出来,也能生成xml文件,但是问题在上传xml压缩包到网站转换excel文件的时候,会出现混乱,应该是网页代码影响了excel文件的生成,有什么办法可以 解决?期望代码按照文本格式放到一个excel单元格里面!

问题2:我想要采集详情描述里面的图片的网址,不需要其他的东西(很多图片的参数也不要),只要@scr的内容,自定义xpath应该怎样写才行?

问题3:关于采集了速卖通平台系统的产品参数模块得到的文本信息是有多个回车的,可以通过编写xpath将这种多个连续的回车键变成1个吗?希望那些项目不是换行了2-3行,换行一次就行。

1-1.png (80.38 KB, 下载次数: 710)

1-1.png

1.png (78.85 KB, 下载次数: 690)

1.png

3.png (87.86 KB, 下载次数: 685)

3.png

2.png (45.57 KB, 下载次数: 655)

2.png

4.png (30.97 KB, 下载次数: 713)

4.png
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-5-30 15:55

沙发
ym 版主 发表于 2017-5-29 08:45:13 | 只看该作者
1. excel的格式解析处理不是很好用,你直接在会员中心里把xml转excel,参考教程http://www.gooseeker.com/doc/article-329-1.html
2. 直接映射图片网址@src节点,高级设置不要勾网页片段,参考教程http://www.gooseeker.com/doc/article-348-1.html
3. 不能用xpath处理换行,你可以网上搜索一下excel如何处理吧
举报 使用道具
板凳
lizhizilt 中级会员 发表于 2017-5-29 11:32:49 | 只看该作者
关于版主你的回答:
1. 我演示的是用excel转换工具转换的,但是你叫我都会员中心转换也一样的,之前已经试过,也是一样的样子,而且显示已导出10000多条数据,其实实际上应该是500-600条
2. 第二点,你可以调试一下我的规则吗?我写了一条自定义的XPath,在搜索框中能收到多条数据,但是输出的结果只有一条,不知道是哪里出现了问题?
举报 使用道具
地板
Fuller 管理员 发表于 2017-5-29 16:10:34 | 只看该作者
lizhizilt 发表于 2017-5-29 11:32
关于版主你的回答:
1. 我演示的是用excel转换工具转换的,但是你叫我都会员中心转换也一样的,之前已经试 ...

这个规则的整理箱很复杂,是嵌套的,如果用会员中心的导入导出功能把嵌套整理箱导入到excel中,会把某个容器中的多个样例分别与另一个容器中的多个样例组合在一起。假设有3个容器,第一个容器有6个样例,第二个有2个,第三个有5个样例,那么总共会生成 6 X 2 X 5 条数据。

你这个规则子sku那里有多个样例,抓取样本页面可以抓到3个子sku,那么会生成3条数据。其他字段都看起来比较正常。你觉得很乱的网址是哪个?
举报 使用道具
5#
lizhizilt 中级会员 发表于 2017-5-29 17:23:46 | 只看该作者
有一个抓取内容是商品的详情代码,那个抓取内容是很大的,而且是有html标签,我看它最后转成excel是转不出来的,我这种情况是的话是要建立不同的整理箱来抓取不同的内容还是要怎么才能解决?
举报 使用道具
6#
Fuller 管理员 发表于 2017-5-29 18:44:31 | 只看该作者
lizhizilt 发表于 2017-5-29 17:23
有一个抓取内容是商品的详情代码,那个抓取内容是很大的,而且是有html标签,我看它最后转成excel是转不出 ...

哪个网址?我试试

你这个规则最好分成多个整理箱。这样导入excel的时候,各个整理箱各自一个表格
举报 使用道具
7#
lizhizilt 中级会员 发表于 2017-5-29 21:15:28 | 只看该作者
上面的帖子有
举报 使用道具
8#
shenzhenwan10 金牌会员 发表于 2017-5-29 22:45:09 | 只看该作者

RE: 关于抓取商品详情代码的问题!!!

我测试了你的规则, 用官网的数据导入和导出, excel结果文件里没看出商品详情html那个字段有什么问题


举报 使用道具
9#
lizhizilt 中级会员 发表于 2017-5-30 00:50:06 | 只看该作者
本帖最后由 lizhizilt 于 2017-5-30 01:13 编辑

谢谢,我不清楚是不是因为数量的原因,我通常采集100多个,每个xml大约是30kb的大小,xml还是很正常的,我用过两种方法来xml转excel,一种是官网上面,一种是用excel工具宏,两种方法导入去就整个混乱了,如果有兴趣的话可以下载一下附件,你可以看到实际的结果,生成的数据有1万多条,所以免费版的直接都导不出来,之后我才用本地的excel宏来,结果也是一样。如果不行的话,我再想想办法来解决,谢谢!附近不能传上那个excel,有点大,转换后有5m,我传了工具,你可以一试便知,你用txt看xml文件可能正常,但是经过一转成excel,就不行了,我是搞不懂了

1.png (19.36 KB, 下载次数: 684)

1.png

2.png (76.32 KB, 下载次数: 688)

2.png

3.png (37.12 KB, 下载次数: 712)

3.png

aliexpress手表单属性sku抓取128.zip

655.3 KB, 下载次数: 5

XMLtoExcel_1022-unprotected 复制到xml所在文件夹alt f8运行宏.rar

33.86 KB, 下载次数: 2

举报 使用道具
10#
lizhizilt 中级会员 发表于 2017-5-30 01:15:42 | 只看该作者
shenzhenwan10 发表于 2017-5-29 22:45
我测试了你的规则, 用官网的数据导入和导出, excel结果文件里没看出商品详情html那个字段有什么问题

谢谢,我不清楚是不是因为数量的原因,我通常采集100多个,每个xml大约是30kb的大小,xml还是很正常的,我用过两种方法来xml转excel,一种是官网上面,一种是用excel工具宏,两种方法导入去就整个混乱了,如果有兴趣的话可以下载一下附件,你可以看到实际的结果,生成的数据有1万多条,所以免费版的直接都导不出来,之后我才用本地的excel宏来,结果也是一样。如果不行的话,我再想想办法来解决,谢谢!附近不能传上那个excel,有点大,转换后有5m,我传了工具,你可以一试便知,你用txt看xml文件可能正常,但是经过一转成excel,就不行了,我是搞不懂了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 16:12