集搜客GooSeeker网络爬虫

标题: 没做样例复制但全部数据都采下来了是怎么回事? [打印本页]

作者: 更新    时间: 2016-12-16 14:28
标题: 没做样例复制但全部数据都采下来了是怎么回事?
没做样例复制但全部数据都采下来了是怎么回事?


作者: wangyong    时间: 2016-12-16 15:35
本帖最后由 wangyong 于 2016-12-16 15:38 编辑

GooSeeker在抓取整页数据时有两种方法,
第一种方式是样例复制,原理是将同一父节点下所有的1、2、3、4...节点所包含的数据统一获取下来,所以在做样例复制时必须要用同一父节点下的兄弟节点,通常为第一个、第二个节点。
例如,在淘宝商品搜索页面中,@class='grid-container row'的DIV节点就是父节点,@class='grid-item col'的DIV节点就是互为兄弟节点的子节点,这里的每个节点就代表一个商品。
[attach]3732[/attach]
样例复制就会通过物理关系将所有 @class='grid-container row'的DIV下第1、2、3、4..个商品数据获取下来。
第二种方式是定位标志,原理是将所有属性值相同的节点所包含的数据统一获取下来。
[attach]3733[/attach]
淘宝中所有商品对应的DIV的@class='grid-item col',将第一个DIV做定位标志映射到第整理箱顶节点时就会将所有的商品都抓取下来。

下面回到最开始提问的问题,没做样例复制但全部数据都采下来了是怎么回事?
原因就是由于网页较为结构化自动生产的抓取规则就已经有了做完定位标志的效果,所以将所有的数据都采集下来了,这时候也就不需要做样例复制也不需要做定位标志了。
关于样例复制和定位标志可参看:《样例复制》、《定位标志





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2