数据规则就是随着标注和映射操作立刻生成的XSLT程序,它是集搜客网络爬虫采集网页数据的依据,主要涉及到xpath,大家在掌握html、xml、xpath的基础上,就能很好地理解XSLT程序。查看方法是做好规则后,再点击“测试”,在输出结果窗口里点击“数据规则”页签,如下图。 查看数据规则是为了能在原来的基础上优化程序,有很多实现的方法,例如对整理箱的抓取内容做定位标志映射或自定义xpath,这里就不细说了,下面讲解一下数据规则的结构。 1、整理箱的起点路径 在xsl:apply-template select="***",双引号里面的第一个xpath路径就是整理箱的起点路径,and后面是勾了关键内容的标签的xpath路径。起点路径限定了整理箱的采集范围,其他标签的xpath路径必须包含在它里面,才可以被定位和采集。 2、每个标签的xpath路径 只要看标签下的第一条程序xsl:value-of select="***”,双引号里面就是它的xpath路径。 Tips1:爬虫路线也是有规则的,除下级线索外,设置其他类型的爬虫路线后,就会线索规则页签里生成一个路线程序。定义好爬虫路线后点击“查看规则”,在线索规则里, Tips2:无论是数据规则还是线索规则,得到的xpath都是越短越好,因为越短的xpath所查找的路径层级就越少,能大大减少由于网页结构变动而定位失败的情况,通常做定位标志映射可以优化xpath路径。 上一篇文章:《XML文件结构》 下一篇文章:《采集网页html源码》 |