快捷导航

采集流程——以采集58同城租房信息为例

2015-10-10 17:34| 发布者: ym| 查看: 9294| 评论: 3

摘要: 样例复制的作用很多网页是列表结构,例如电商网站、垂直网站的分目录页面以及商品评论等,我们通常要采集目录分页上的商品基本信息和商品网址,通过商品网址导航进入下一级网页,然后采集详细的商品信息或其他目标信 ...

本文以采集58同城深圳地区租房信息为例,讲解用集搜客软件采集网页数据的一个大致流程,采集其它网站信息均可套用本文的采集思路。


采集规则 采集内容 样本网址
租房信息采集_58同城_第一级 标题、网址、价格 58同城深圳租房信息
租房信息采集_58同城_第二级 联系人、电话号码 租房详情页面

采集流程:

  1. 单点信息:首先单点采集租房信息的标题、网址、价格
  2. 整页信息:样例复制采集一整页上每一条租房信息的标题、网址、价格
  3. 所有页面信息:设置翻页把每一页上的租房信息都采集下来
  4. 设置层级采集:把采集的网址作为导航,进入租房详情页面采集电话号码信息,需要设置层级抓取,至此,一级规则就完成了
  5. 二级网页规则:点击进入租房详情页面做二级规则,用来采集联系人、电话号码
  6. 采集数据:打开DS打数机,采集第一级数据的同时,也会为第二级生成线索,然后就能批量采第二级网页数据
  7. 数据保存:数据采集完后,查看结果文件转格式为excel,还可以添加新网址继续采集
  8. 规则修改:如果想要查看或修改规则,请参考规则怎么查看、修改、另存、删除

若有疑问可以集搜客网络爬虫
22

鲜花

握手

雷人

路过
1

鸡蛋

刚表态过的朋友 (23 人)

相关阅读

发表评论

最新评论

评论 seekerliu 2017-9-10 16:47
赞。跟着教程慢慢学习,一点点进步
评论 amwgahiyj 2016-3-21 21:48
出视频教程。。啊。。
评论 Fuller 2015-10-12 09:38
关于怎样选择样例,参看一个用户的具体提问:http://www.gooseeker.com/doc/thread-518-1-2.html

查看全部评论(3)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-9-25 12:21