批量爬取安居客二手房的房源信息

2018-6-12 10:02| 发布者: xandy| 查看: 8869| 评论: 0|原作者: 集搜客GooSeeker

摘要: 推荐一个很简单的数据爬取应用,可以快捷采集到很多热门网站的数据,比如微博、知乎、淘宝、安居客、微信等等都可以爬取到,一键式操作,不用写代码也不用学软件操作。下面介绍用它爬取安居客二手房信息的操作步骤。 ...

推荐一个很简单的数据爬取应用,可以快捷采集到很多热门网站的数据,比如微博、知乎、淘宝、安居客、微信等等都可以爬取到,一键式操作,不用写代码也不用学软件操作。下面介绍用它爬取安居客二手房信息的操作步骤。

一、下载安装gooseeker爬虫

爬数据要用配套的gooseeker爬虫软件,所以第一步是要访问官网https://www.gooseeker.com/pro/product.html

下载软件,然后双击安装,后面的步骤都要在软件里操作。

二、访问数据DIY找到入口

打开gooseeker软件,访问https://www.gooseeker.com/res/datadiy.html,进入到数据DIY里,在顶部的目录上点击"房地产->安居客->安居客二手房房源列表",这样就选定了入口;

目录的第三级是页面,它代表了支持爬取的网页结构,在中部有示例页面的网址,点开看到的是广州-天河二手房的列表页面,满足这个列表结构的安居客网页,都可以用上面的入口来爬数据。

比如,要爬取上海的二手房列表,可以点击示例网页顶部的广州,切换到上海,但是,安居客限制了最多显示50页,如果要爬取比较完整的数据,最好是再点击一下目录的各级分类,把一个网址下的页码数控制在50页以内,再把各级分类的网址拷贝整理出来。

三、添加网址爬数据

只有一个网址的话,可以直接粘贴到输入框里,然后选择要爬取的页数,最后点击获取数据;

有多条网址的话,先选择爬取页数,再点击"输入多条网址"按钮,把多条网址拷贝粘贴进去,最后确定;

添加网址成功后,会提示启动两个爬虫窗口,点启动,就会看到有两个爬虫窗口和一个管理窗口打开;

爬虫窗口就是一个浏览器窗口,它会自动访问要采集的网址,然后把数据存下来。

四、下载数据

爬虫窗口没有再访问网页,说明爬取完成了,到管理窗口把数据打包和下载下来。

然后在软件右上角的下载历史按钮里,可以查到存储路径,根据路径找到数据包,查看数据表。

五、进一步爬取二手房详情页数据

前面下载的数据表里的链接是详情页面的网址,这时,可以切换到"安居客二手房房源详情信息",把表里的链接拷贝添加进去,再启动采集。

最后,爬到的详情数据表里,多了下面这些字段数据,比列表数据更加全面。


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

GMT+8, 2024-12-31 02:06