采集标题、网址、价格——以采集58同城租房信息为例

2015-10-10 17:54| 发布者: ym| 查看: 17062| 评论: 0

摘要: 下面是定义基本规则的操作步骤,更加详细的可以查看教程集搜客入门——三步掌握集搜客命名主题图1 命名主题图1步骤分解:1.在火狐的工具栏处打开MS谋数台,输入样本网页地址。2.输入主题名。3.检查主题名是否重复。 ...

下面将介绍单点采集58同城租房信息的标题、网址、价格信息的方法,了解制作规则的操作步骤。更加详细的可以查看教程从制作规则到采集数据的三个步骤

一、命名主题

图1 命名主题

图1步骤分解:

  1. 在火狐的工具栏处打开MS谋数台,输入样本网页地址。
  2. 输入主题名。
  3. 检查主题名是否重复,重复的话就换一个名字。


二、建立整理箱

图2 建立整理箱

图2步骤分解:

  1. 切换到”创建规则”工作台。
  2. 点击”新建“按钮创建整理箱。
  3. 在弹出窗口中输入整理箱名字。


三、在整理箱中建立抓取内容

图3 添加抓取内容

图3步骤分解:

  1. 右击整理箱的空白处,弹出快捷菜单。
  2. 选择“添加”,选中“其前”/“其后”/“包容”,表示新建的抓取内容与被选中的抓取内容的相对关系,如果选择包容就能建立起嵌套的整理箱结构,从而能抓取更加复杂的数据结构。在这里建立了三层的嵌套结构,其实建两层结构也是可以的,但是为了精确地采集一个网页范围,要对顶层节点“列”做标志映射,所以多建一层。
  3. 为抓取内容起名字。
  4. 勾选关键内容,表示使用这个规则抓数据的关键标志,DS打数机在抓取数据时会判断网页是否存在这个关键标志,如果存在就立刻采集数据,这样就会大大加快采集速度,如果不存在,DS打数机就不抓取该网页,从而抓取失败,所以,应该根据实际情况选择关键内容。


四、把抓取内容与网页信息建立映射关系

图4 建立映射关系

图4步骤分解:

  1. 点击第一条信息的标题,就会自动定位到包含标题的A节点。
  2. 双击展开A节点,找到标题所在的#text节点,如果在文本内容框中可以看到完整的标题内容就说明找对了,如果#text只是标题的一部分,请参考教程如何采集完整网页片段完整信息
  3. 右击#text节点,弹出菜单中选择“内容映射”->“标题”。
  4. 展开attributes属性节点,找到@href节点,右击弹出菜单,选择“内容映射”->“网址”,如图4。注意:超链接网址一般是包含在属性attributes的@href节点,而图片网址则是包含在@scr节点里。
  5. 点击价格,自动定位后,找到包容价格的节点,做内容映射给价格。

做完上面的操作,我们只是采到了一条租房信息的标题、网址和价格,想要采集一整页的租房信息的话,需要做样例复制这样就能抓取全部相同结构的信息。想要某个地区的所有租房信息的话,需要做翻页采集,想要精确定位的话,就要做定位标志映射,更多采集技巧请学习中级教程


若有疑问可以集搜客网络爬虫
10

鲜花

握手

雷人
1

路过
1

鸡蛋

刚表态过的朋友 (12 人)

相关阅读

最新评论

GMT+8, 2024-12-4 00:53