https://www.aliexpress.com/store ... 16_32862115545.html
这个额是一个产品的链接,我要采集多个产品的信息,他的产品颜色尺寸的ID是变化的。没有办法锁定
他的描述也不能锁定、
举报 使用道具
| 回复

共 25 个关于本帖的回复 最后回复于 2018-5-16 14:15

沙发
Fuller 管理员 发表于 2018-5-12 18:25:23 | 只看该作者
你是想采集 Size:和Color:后面的内容吗?
如果要准确定位,可以把Size:和Color:作为标志,用自定义xpath,
1,首先用 contains()函数,用那两个标志做判断
2,其次用substring-after()函数,把两个标志后面的内容截取出来

所以,在设置自定义xpath的时候,定位表达式和内容表达式采用不同的xpath
举报 使用道具
板凳
Fuller 管理员 发表于 2018-5-12 18:28:04 | 只看该作者

举报 使用道具
地板
LPG123 初级会员 发表于 2018-5-12 19:21:20 | 只看该作者
可以给我做个例子吗?没有学过这个语句
举报 使用道具
5#
LPG123 初级会员 发表于 2018-5-12 20:45:55 | 只看该作者
只要文字
举报 使用道具
6#
Fuller 管理员 发表于 2018-5-13 09:34:29 | 只看该作者

我看了你的截图,那片文字都在一个SPAN底下,就别用XPath把Color和Size区分开了,用XPath太麻烦了,因为这些文字本身就挤在一起。

把这块内容放在一个抓取内容中抓下来。等所有商品的数据抓下来并且入了库以后,用Excel的函数功能把这些字段内容抠出来

举报 使用道具
7#
LPG123 初级会员 发表于 2018-5-14 09:39:35 | 只看该作者
会有遗漏,这个是两个内容,一个是我要描述,我圈的文字,另外就是图片的title
用普通的会出现遗漏,只能够抓取部分
举报 使用道具
8#
数据集 高级会员 发表于 2018-5-14 10:08:23 | 只看该作者
本帖最后由 数据集 于 2018-5-14 10:15 编辑
LPG123 发表于 2018-5-14 09:39
会有遗漏,这个是两个内容,一个是我要描述,我圈的文字,另外就是图片的title
用普通的会出现遗漏,只能够 ...

1、采集描述 内容映射包含所有描述的节点,再用@class='origin-part'给描述字段做上定位标志映射

2、采集图片的title可以用样例复制采集,不用一个一个区映射,每个页面的图片个数都不一样,一个一个去映射遇到图片个数少的网页就会有很多空字段



1.png (127.17 KB, 下载次数: 799)

1.png
举报 使用道具
9#
LPG123 初级会员 发表于 2018-5-14 16:30:50 | 只看该作者
sku用样例重复,找不到
举报 使用道具
10#
bowieD 金牌会员 发表于 2018-5-14 16:34:46 | 只看该作者
LPG123 发表于 2018-5-14 16:30
sku用样例重复,找不到

规则名"速卖通产品采集2"是这个吗?我看这个规则你并没有用样例复制,参考楼上‘数据集’的截图来做
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 17:44