主题名1:鼠雨荨层级抓取-1  主题名2:鼠雨荨层级抓取-1.1

截图:

采网址做层级采集教程链接:http://www.gooseeker.com/doc/article-343-1.html

采集失败的网址:
https://sanzhisongshu.tmall.com/search.htm?spm=a1z10.1-b-s.w5001-14855767631.3.CbqceX&scene=taobao_shop


https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-14855767637.95.KEGLcp&id=16204910274&rn=5a606554350971cead7840f6373043ad&abbucket=6&skuId=3201569543087

想采集的结果:通过网址网页点击采集天猫详情内页的商品参数



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-12-1 23:01

沙发
Fuller 管理员 发表于 2016-12-1 22:44:26 | 只看该作者
在第一级里面,看“爬虫路线”工作台,你给第二级起的主题名是 鼠雨荨层级抓取-2

所以,定义规则的时候,第二级一定要用这个名字,否则串不起来
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-1 22:59:29 | 只看该作者
第二级规则加载失败,主要原因是:生产许可证编号和产品标准号 是属于 商品参数的,而 商品名 是属于 商品基本信息的。这两部分距离挺远,在网页上,万一他们直接出现点别的内容,就会影响抓取规则的适应性。
改进方案有多个:

方案1:分成两个整理箱,一个存基本信息,一个存商品参数


方案2:因为所有的商品参数都在UL[@class='J_AttrUL']网页区域中,那么都用这个节点做定位标志映射,映射给生产许可证编号 和 产品标准号。用定位标志映射约束一下,可以提高规则的适应性。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
Fuller 管理员 发表于 2016-12-1 23:01:30 | 只看该作者
方案2生成的数据规则是
  1. <生产许可证编号>
  2. <xsl:value-of select="following-sibling::div[position()=2]//*[@id='J_AttrUL']/li[position()=1]"/>
  3. </生产许可证编号>
  4. <产品标准号>
  5. <xsl:value-of select="following-sibling::div[position()=2]//*[@id='J_AttrUL']/li[position()=2]"/>
  6. </产品标准号>
复制代码


里面有position()=2这样的绝对定位表达式,适应性还是有限
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-25 21:20