链家房源列表

265 9 9 所需积分:500 更新时间:2015-10-17 17:36 类别: 房地产

规则介绍

这个抓取规则需要一点小技巧,因为在网页上,发布时间、单价和总价所用的html标签和属性完全一样,如果要同时抓取这三个内容,大家都抓成发布时间。这是因为抓取规则自动定位网页上的位置的时候,自动使用了div[@class='div-cun']/text()这个表达式。要解决这个问题,要么自定义xpath。如果嫌麻烦,就用个小技巧,选择包含这三块内容的总DIV,在网页上的位置是div[@class='dealType'],使用他的@class作为定位标志,也就是选择这个div,做定位标志映射,都映射给这3个抓取内容,这样,GooSeeker爬虫会自动计算出他们所在的位置是在这个总div下的不同节点 (如果该规则与描述不符或无效,您可 申诉。)

样本页面

采集内容

信息字段 网页内容
列表
名称
其它属性
简介
时间
价格
总价

数据截图

用户评论

  1. wavexiao 2016-03-24 11:34

    要的就是这个!牛!太好啦!

  2. wavexiao 2016-03-30 10:09

    大神,请问如何可以抓取不同区域的数据?就是在一个界面中编辑规则,由系统自动抓取不同地区的数据?

  3. Fuller 2016-03-30 11:10

    不用改规则,添加线索就够了,改规则太麻烦,我看到好多人都用改规则名的方式,这样很麻烦。 进入会员中心,把另一个区域的网址添加进这个规则里面即可。具体位置是:爬虫管理-》规则管理,点击那个规则进入到管理界面

  4. wavexiao 2016-04-05 14:06

    谢谢大神!

  5. Stephanie_Ho 2016-10-29 21:33

    请问这是对成交房源的抓取规则吗

关于作者

作者其他资源更多 >

微博兴趣搜索_测试悬浮信息
这个规则是两个主题中的第一个,按照搜索条件把相同兴趣的人搜出来,而且翻页抓取所有人。这个主题用于演示连续动作,即连续不断地移动鼠标,悬浮则每个人的头像上,把弹出的个人信息抓下来,抓的过程是由第二个主题完成的:微博兴趣搜索_测试悬浮信息_悬浮动作 。详细内容请查看教程板块的连续动作相关文章
微博兴趣搜索_测试悬浮信息_悬浮动作
这是连续动作抓取模式下的第二个主题,不要单独运行这个主题,而是运行第一个:微博兴趣搜索_测试悬浮信息 。运行第一个后,会在网页上连续做鼠标悬浮动作,就能连续使用本规则把个人信息抓取下来。这是用于演示连续动作抓取功能的,详细用法请查看教程板块的相关文章
链家房源列表
这个抓取规则需要一点小技巧,因为在网页上,发布时间、单价和总价所用的html标签和属性完全一样,如果要同时抓取这三个内容,大家都抓成发布时间。这是因为抓取规则自动定位网页上的位置的时候,自动使用了div[@class='div-cun']/text()这个表达式。要解决这个问题,要么自定义xpath。如果嫌麻烦,就用个小技巧,选择包含这三块内容的总DIV,在网页上的位置是div[@class='dealType'],使用他的@class作为定位标志,也就是选择这个div,做定位标志映射,都映射给这3个抓取内容,这样,GooSeeker爬虫会自动计算出他们所在的位置是在这个总div下的不同节点
V8.9 版权所有 © 2007-2016 GooSeeker 深圳市天据电子商务有限公司
粤ICP备11065265号-2 粤公网安备 44030502000239号