样本网站:http://cd.fang.anjuke.com/loupan/canshu-248764.html?from=loupan_tab





list 错位。怎么去定位?大神帮帮忙
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-12-24 16:32

沙发
tiilen 新手上路 发表于 2016-12-23 09:29:32 | 只看该作者

举报 使用道具
板凳
ym 版主 发表于 2016-12-23 09:34:36 | 只看该作者
在整理箱里建多个抓取内容,与ul下的li一一对应着做映射
举报 使用道具
地板
tiilen 新手上路 发表于 2016-12-23 09:42:22 | 只看该作者
ym 发表于 2016-12-23 09:34
在整理箱里建多个抓取内容,与ul下的li一一对应着做映射

不同线索  表项是错位的。怎么去定位呢?
举报 使用道具
5#
ym 版主 发表于 2016-12-23 09:46:01 | 只看该作者
那就对这些抓取内容设置自定义xpath,参考教程《自定义xpath:精确采集》
举报 使用道具
6#
tiilen 新手上路 发表于 2016-12-23 09:48:23 | 只看该作者
谢谢大神。
举报 使用道具
7#
tiilen 新手上路 发表于 2016-12-24 16:08:18 | 只看该作者
ym 发表于 2016-12-23 09:46
那就对这些抓取内容设置自定义xpath,参考教程《自定义xpath:精确采集》

ym大神

<LI></LI>  里面的class 都是一样的,无法用xpath   怎么办呢


可不可以做

当<div class="name">售楼处电话</div>  结果为true,我就采集class

<div class="des">地铁二号线 天河路站旁(犀浦外国语学校对面。项目地块边界距天河路站1公里以内) </div>


举报 使用道具
8#
Fuller 管理员 发表于 2016-12-24 16:32:50 | 只看该作者
tiilen 发表于 2016-12-24 16:08
ym大神

  里面的class 都是一样的,无法用xpath   怎么办呢

如果要抓售楼处电话,那么XPath可以这样写   div[contains(preceeding-sibling::div/text(), '售楼处电话')]/text()

这种自定义xpath很灵活,基本上所有情况都能解决,但是,如果页面上有些有“售楼处电话”,有些没有,用自定义XPath就会稍微复杂一点,在自定义对话框中能看到xpath还分成定位用的和抓取内容用。


如上图,勾上专用定位,抓取内容表达式和定位标志表达式要填写不一样的。因为有些页面上,如果样本页面上“售楼处电话”没有,但是还想在其他网页上抓到他,定位标志表达式一定要指向一个总是存在的节点,因为这个表达式是用来加载规则的,一定要定位得到。而内容表达式就写实际的表达式。

如果你能找到一个样本页面,内容是最全的,那就没有这个麻烦
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 08:36