观看视频教程
样例复制映射 如果网页上有多条结构相同的信息,我们把这样的一条结构信息称之为样例,多条结构化信息就是多样例。如果简单地把第一条结构化信息映射给整理箱,就只能采到一条样例信息。想要采集该网页上所有结构化的信息,就要再做上样例复制映射,具体操作如下: 注释:本文所演示的翻页抓取规则,可到资源库下载学习:集搜客中级_样例复制 一、激活样例复制 图1 样例映射 图1步骤分解:
注意:两层整理箱就选顶层节点做样例复制,如果是多层的嵌套结构(如图1),可以对顶层节点再做一层样例复制/标志映射,从而能采集到更加复杂的网页结构。
二、样例映射 图2 复制 图2步骤分解:
注意:映射的节点必须是同一个父节点下的兄弟节点,由图2可知,父节点为TBODY,对应着整个列表信息,展开TBODY节点就是多个结构相同的TR节点(兄弟节点),一个TR节点就对应网页上一条完整的租房信息(橙/绿色框部分),所以,父节点下通常选第一个和第二个区块节点来做样例复制映射。 翻页抓取 经过样例复制后,能够把整页的信息抓下来了,想要抓每一页的信息,就要做翻页设置,但本章不细讲翻页操作了,详见教程如何翻页抓取网页数据。 |