现在采集58房产信息,有更简单快捷的工具。用Gooseeker数据DIY,只用输入网址,就可以采集了。 本文以采集58同城深圳地区租房信息为例,讲解用集搜客软件采集网页数据的一个大致流程,采集其它网站信息均可套用本文的采集思路。 采集流程:
- 单点信息:首先单点采集租房信息的标题、网址、价格
- 整页信息:做样例复制采集一整页上每一条租房信息的标题、网址、价格
- 所有页面信息:设置翻页把每一页上的租房信息都采集下来
- 设置层级采集:把采集的网址作为导航,进入租房详情页面采集电话号码信息,需要设置层级抓取,至此,一级规则就完成了
- 二级网页规则:点击进入租房详情页面做二级规则,用来采集联系人、电话号码
- 采集数据:打开DS打数机,采集第一级数据的同时,也会为第二级生成线索,然后就能批量采第二级网页数据
- 数据保存:数据采集完后,查看结果文件,转格式为excel,还可以添加新网址继续采集
- 规则修改:如果想要查看或修改规则,请参考规则怎么查看、修改、另存、删除
若有疑问可以或 |