快捷导航
25 924

ID变化

LPG123 于 2018-5-12 18:01 发表 [复制链接]
https://www.aliexpress.com/store ... 16_32862115545.html
这个额是一个产品的链接,我要采集多个产品的信息,他的产品颜色尺寸的ID是变化的。没有办法锁定
他的描述也不能锁定、 NW@VW{9LN}I0Q{JU4VC@N_D.png S(C{NBBEIG62EHO2GJJP}RM.png
举报 使用道具
| 回复

共 25 个关于本帖的回复 最后回复于 2018-5-16 14:15

Fuller 管理员 发表于 2018-5-12 18:25:23 | 显示全部楼层
你是想采集 Size:和Color:后面的内容吗?
如果要准确定位,可以把Size:和Color:作为标志,用自定义xpath,
1,首先用 contains()函数,用那两个标志做判断
2,其次用substring-after()函数,把两个标志后面的内容截取出来

所以,在设置自定义xpath的时候,定位表达式和内容表达式采用不同的xpath
举报 使用道具
Fuller 管理员 发表于 2018-5-12 18:28:04 | 显示全部楼层
自定义xpath.png
举报 使用道具
LPG123 初级会员 发表于 2018-5-12 19:21:20 | 显示全部楼层
可以给我做个例子吗?没有学过这个语句
举报 使用道具
LPG123 初级会员 发表于 2018-5-12 20:45:55 | 显示全部楼层
只要文字 TBW(]VGFNTIFKH5S1PJZB.png ~UG}VHI~4LU`1DV2KZ~FYK9.png
举报 使用道具
Fuller 管理员 发表于 2018-5-13 09:34:29 | 显示全部楼层

我看了你的截图,那片文字都在一个SPAN底下,就别用XPath把Color和Size区分开了,用XPath太麻烦了,因为这些文字本身就挤在一起。

把这块内容放在一个抓取内容中抓下来。等所有商品的数据抓下来并且入了库以后,用Excel的函数功能把这些字段内容抠出来

举报 使用道具
LPG123 初级会员 发表于 2018-5-14 09:39:35 | 显示全部楼层
会有遗漏,这个是两个内容,一个是我要描述,我圈的文字,另外就是图片的title
用普通的会出现遗漏,只能够抓取部分
举报 使用道具
数据集 高级会员 发表于 2018-5-14 10:08:23 | 显示全部楼层
本帖最后由 数据集 于 2018-5-14 10:15 编辑
LPG123 发表于 2018-5-14 09:39
会有遗漏,这个是两个内容,一个是我要描述,我圈的文字,另外就是图片的title
用普通的会出现遗漏,只能够 ...

1、采集描述 内容映射包含所有描述的节点,再用@class='origin-part'给描述字段做上定位标志映射

2、采集图片的title可以用样例复制采集,不用一个一个区映射,每个页面的图片个数都不一样,一个一个去映射遇到图片个数少的网页就会有很多空字段



1.png
举报 使用道具
LPG123 初级会员 发表于 2018-5-14 16:30:50 | 显示全部楼层
sku用样例重复,找不到
举报 使用道具
bowieD 金牌会员 发表于 2018-5-14 16:34:46 | 显示全部楼层
LPG123 发表于 2018-5-14 16:30
sku用样例重复,找不到

规则名"速卖通产品采集2"是这个吗?我看这个规则你并没有用样例复制,参考楼上‘数据集’的截图来做
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 大型百货商场会员画像描绘
  • 自动导入导出数据
  • 批量爬取蘑菇街商品价格、评论信息
  • 微博用户数据分析
  • 批量爬取苏宁商品价格、评论信息

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-10-17 03:42