推荐一个很简单的数据爬取应用,可以快捷采集到很多热门网站的数据,比如微博、知乎、淘宝、安居客、微信等等都可以爬取到,一键式操作,不用写代码也不用学软件操作。下面介绍用它爬取安居客二手房信息的操作步骤。 一、下载安装gooseeker爬虫 爬数据要用配套的gooseeker爬虫软件,所以第一步是要访问官网https://www.gooseeker.com/pro/product.html 下载软件,然后双击安装,后面的步骤都要在软件里操作。 二、访问数据DIY找到入口 打开gooseeker软件,访问https://www.gooseeker.com/res/datadiy.html,进入到数据DIY里,在顶部的目录上点击"房地产->安居客->安居客二手房房源列表",这样就选定了入口; 目录的第三级是页面,它代表了支持爬取的网页结构,在中部有示例页面的网址,点开看到的是广州-天河二手房的列表页面,满足这个列表结构的安居客网页,都可以用上面的入口来爬数据。 比如,要爬取上海的二手房列表,可以点击示例网页顶部的广州,切换到上海,但是,安居客限制了最多显示50页,如果要爬取比较完整的数据,最好是再点击一下目录的各级分类,把一个网址下的页码数控制在50页以内,再把各级分类的网址拷贝整理出来。 三、添加网址爬数据 只有一个网址的话,可以直接粘贴到输入框里,然后选择要爬取的页数,最后点击获取数据; 有多条网址的话,先选择爬取页数,再点击"输入多条网址"按钮,把多条网址拷贝粘贴进去,最后确定; 添加网址成功后,会提示启动两个爬虫窗口,点启动,就会看到有两个爬虫窗口和一个管理窗口打开; 爬虫窗口就是一个浏览器窗口,它会自动访问要采集的网址,然后把数据存下来。 四、下载数据 爬虫窗口没有再访问网页,说明爬取完成了,到管理窗口把数据打包和下载下来。 然后在软件右上角的下载历史按钮里,可以查到存储路径,根据路径找到数据包,查看数据表。 五、进一步爬取二手房详情页数据 前面下载的数据表里的链接是详情页面的网址,这时,可以切换到"安居客二手房房源详情信息",把表里的链接拷贝添加进去,再启动采集。 最后,爬到的详情数据表里,多了下面这些字段数据,比列表数据更加全面。 |