层级抓取提醒错误，求大神指教

何丽娟20160316

主题名1：鼠雨荨层级抓取-1 主题名2：鼠雨荨层级抓取-1.1

截图：

采网址做层级采集教程链接：http://www.gooseeker.com/doc/article-343-1.html

采集失败的网址：
https://sanzhisongshu.tmall.com/search.htm?spm=a1z10.1-b-s.w5001-14855767631.3.CbqceX&scene=taobao_shop

https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-14855767637.95.KEGLcp&id=16204910274&rn=5a606554350971cead7840f6373043ad&abbucket=6&skuId=3201569543087

想采集的结果：通过网址网页点击采集天猫详情内页的商品参数

Fuller · 发表于 2016-12-1 22:44:26

在第一级里面，看“爬虫路线”工作台，你给第二级起的主题名是鼠雨荨层级抓取-2

所以，定义规则的时候，第二级一定要用这个名字，否则串不起来

Fuller · 发表于 2016-12-1 22:59:29

第二级规则加载失败，主要原因是：生产许可证编号和产品标准号是属于商品参数的，而商品名是属于商品基本信息的。这两部分距离挺远，在网页上，万一他们直接出现点别的内容，就会影响抓取规则的适应性。
改进方案有多个：

方案1：分成两个整理箱，一个存基本信息，一个存商品参数

方案2：因为所有的商品参数都在UL[@class='J_AttrUL']网页区域中，那么都用这个节点做定位标志映射，映射给生产许可证编号和产品标准号。用定位标志映射约束一下，可以提高规则的适应性。

Fuller · 发表于 2016-12-1 23:01:30

方案2生成的数据规则是

<生产许可证编号>
<xsl:value-of select="following-sibling::div[position()=2]//*[@id='J_AttrUL']/li[position()=1]"/>
</生产许可证编号>
<产品标准号>
<xsl:value-of select="following-sibling::div[position()=2]//*[@id='J_AttrUL']/li[position()=2]"/>
</产品标准号>

复制代码

里面有position()=2这样的绝对定位表达式，适应性还是有限

层级抓取提醒错误，求大神指教

本帖子中包含更多资源

共 3 个关于本帖的回复最后回复于 2016-12-1 23:01

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

层级抓取提醒错误，求大神指教

本帖子中包含更多资源

共 3 个关于本帖的回复 最后回复于 2016-12-1 23:01

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2016-12-1 23:01