情景说明
翻页抓取是最常使用的功能,但是,虽然网页上看起来一样,html源代码中的结构和样式可能差别很大,html的标签元素是一层层嵌套的,如果点击的位置不合适,比如,点击了内层的标签元素,可能起不到作用,所以要做适当的调整和实验。下面将重点讲解怎样选择合适的被点击元素。 为定点线索做线索映射定点线索是最简单的类型,只需要为这类线索映射一次,也就是明确指定要点击的html元素节点。那么也不会出现下章所说的选择点击对象的问题。但是,记号线索灵活度更高,因为不明确指定被点击的节点,而且根据这个节点含有的标志,在一个范围中找,而线索映射就是用来划定一个这个范围的,所以,网页结构变化对记号线索的影响最小。
上图所示的案例是:
为定点线索做映射的要点是:
使用定点线索,把那个节点映射给它就表示点击哪个节点。所以简单明了。 为记号线索选择合适的点击节点
《如何翻页抓取网页数据——以采集天猫搜索列表为例》一文详细说明了记号线索的使用方法,上图所示的案例是:
为记号线索做映射的要点是:
记号映射分析
总之,选择记号的时候要记住,包含记号的那个节点就是要被点击的节点。 |