我新发布了一个采集规则:
链家房源列表


详细信息:
这个抓取规则需要一点小技巧,因为在网页上,发布时间、单价和总价所用的html标签和属性完全一样,如果要同时抓取这三个内容,大家都抓成发布时间。这是因为抓取规则自动定位网页上的位置的时候,自动使用了div[@class='div-cun']/text()这个表达式。要解决这个问题,要么自定义xpath。如果嫌麻烦,就用个小技巧,选择包含这三块内容的总DIV,在网页上的位置是div[@class='dealType'],使用他的@class作为定位标志,也就是选择这个div,做定位标志映射,都映射给这3个抓取内容,这样,GooSeeker爬虫会自动计算出他们所在的位置是在这个总div下的不同节点

希望大家喜欢!下载地址:
http://www.gooseeker.com/res/detail_94295.html
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-10-30 00:40

沙发
wavexiao 初级会员 发表于 2016-3-24 11:34:06 | 只看该作者
要的就是这个!牛!太好啦!
举报 使用道具
板凳
wavexiao 初级会员 发表于 2016-3-30 10:09:27 | 只看该作者
大神,请问如何可以抓取不同区域的数据?就是在一个界面中编辑规则,由系统自动抓取不同地区的数据?
举报 使用道具
地板
Fuller 管理员 发表于 2016-3-30 11:10:55 | 只看该作者
wavexiao 发表于 2016-3-30 10:09
大神,请问如何可以抓取不同区域的数据?就是在一个界面中编辑规则,由系统自动抓取不同地区的数据? ...

不用改规则,添加线索就够了,改规则太麻烦,我看到好多人都用改规则名的方式,这样很麻烦。

进入会员中心,把另一个区域的网址添加进这个规则里面即可。具体位置是:爬虫管理-》规则管理,点击那个规则进入到管理界面
举报 使用道具
5#
wavexiao 初级会员 发表于 2016-4-5 14:06:06 | 只看该作者
谢谢大神!
举报 使用道具
6#
Stephanie_Ho 新手上路 发表于 2016-10-29 21:33:42 | 只看该作者
请问这是对成交房源的抓取规则吗
举报 使用道具
7#
Fuller 管理员 发表于 2016-10-29 21:55:12 | 只看该作者
Stephanie_Ho 发表于 2016-10-29 21:33
请问这是对成交房源的抓取规则吗

是成交房源:http://bj.lianjia.com/chengjiao/
举报 使用道具
8#
Stephanie_Ho 新手上路 发表于 2016-10-29 22:37:59 | 只看该作者
Fuller 发表于 2016-10-29 21:55
是成交房源:http://bj.lianjia.com/chengjiao/

请问对成都的链家网也适用吗?网页结构看着有点出入 就是标题下面

举报 使用道具
9#
Fuller 管理员 发表于 2016-10-30 00:35:50 | 只看该作者
Stephanie_Ho 发表于 2016-10-29 22:37
请问对成都的链家网也适用吗?网页结构看着有点出入 就是标题下面

成都不一定适用,可以委托GooSeeker官方定制规则
举报 使用道具
10#
Stephanie_Ho 新手上路 发表于 2016-10-30 00:40:03 | 只看该作者
Fuller 发表于 2016-10-30 00:35
成都不一定适用,可以委托GooSeeker官方定制规则

好的谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 14:33