不少用户对样例复制和层级抓取掌握不好,简单来说,样例复制的使用情景就是,当网页上存在多个相同结构的信息时,例如列表型的网页,只需以第一个结构为样例建立整理箱并做映射,再把第一个和第二个结构的dom节点做样例复制映射给整理箱的容器节点,就可以把这一页批量抓取下来。 层级抓取,就是层级网页间通过链接关联起来,从而实现批量采集。关键是两级网页间要有相关的链接,例如淘宝搜索关键词后,得到商品列表,通过链接才能访问到下级商品详情页面,所以,通过这个链接,我们就能从搜索关键词到商品详情页进行批量采集,而不是一个网页做一个规则。具体操作就是抓下网页链接并设置下级线索,目标主题名指向下一级主题,从而在DS采集时就会把抓到的链接,自动导入到下级规则,从而批量采集下级页面。注意:采集时还是要分别执行两级规则,并不是自动连贯抓取。 |