样例复制——以采集58同城租房信息为例

2015-10-12 15:14| 发布者: ym| 查看: 25694| 评论: 4

摘要: 样例复制映射如果要采集网页列表上每一个样例的信息,需要对第一个和第二个样例做样例复制映射,这样,就能自动计算出其它样例的位置。 一、选择样例 图1 样例映射图1步骤分解: 在整理箱中选中“样例”,如果是嵌套 ...
观看视频教程

样例复制映射

如果网页上有多条结构相同的信息,我们把这样的一条结构信息称之为样例,多条结构化信息就是多样例。如果简单地把第一条结构化信息映射给整理箱,就只能采到一条样例信息。想要采集该网页上所有结构化的信息,就要再做上样例复制映射,具体操作如下:

注释:本文所演示的翻页抓取规则,可到资源库下载学习:集搜客中级_样例复制

一、激活样例复制

图1 样例映射

图1步骤分解:
  1. 选中容器节点“样例”,因为整理箱是三层结构,所以是要选择包含抓取内容的上层节点“样例”。PS:容器节点是指整理箱中包容下层抓取内容的抓取内容
  2. 勾选启用,激活样例复制功能。

注意:两层整理箱就选顶层节点做样例复制,如果是多层的嵌套结构(如图1),可以对顶层节点再做一层样例复制/标志映射,从而能采集到更加复杂的网页结构。

二、样例映射

图2 复制

图2步骤分解:
  1. 点击网页上第一个样例(橙色框),自动定位后,往上逐层点击找到能框住整个样例的区块节点。
  2. 右击第一个样例的区块节点,选择“样例复制”->“第一个”,在样例复制管理框中就会看到样例1被映射了一个节点编号。
  3. 同理,选中相邻的下一个区块节点(绿色框),右击选择“样例复制”->“第二个”。
  4. 点击测试就可以看到网页上与样例结构相同的信息都被采下来了。

注意:映射的节点必须是同一个父节点下的兄弟节点,由图2可知,父节点为TBODY,对应着整个列表信息,展开TBODY节点就是多个结构相同的TR节点(兄弟节点),一个TR节点就对应网页上一条完整的租房信息(橙/绿色框部分),所以,父节点下通常选第一个和第二个区块节点来做样例复制映射。


翻页抓取

经过样例复制后,能够把整页的信息抓下来了,想要抓每一页的信息,就要做翻页设置,但本章不细讲翻页操作了,详见教程如何翻页抓取网页数据

若有疑问可以集搜客网络爬虫
7

鲜花

握手

雷人
1

路过
1

鸡蛋

刚表态过的朋友 (9 人)

相关阅读

发表评论

最新评论

评论 Fuller 2017-6-8 22:22
我是说你是513: 为什么我抓取出来的就只有样例这两个信息啊
在使用交流那里,发一个帖子,把主题名贴出来,我帮你看看
评论 我是说你是513 2017-6-8 22:14
为什么我抓取出来的就只有样例这两个信息啊
评论 Fuller 2016-5-17 22:59
weimeiting: 找不到能框住整个样例的区块节点怎么办?
明天加入qq群讨论一下,242144153,截图一起看一下。有框不住的情形,如果网页结构规整,通常不影响样例复制规则
评论 weimeiting 2016-5-17 22:17
找不到能框住整个样例的区块节点怎么办?

查看全部评论(4)

GMT+8, 2024-12-22 13:09