UL下li如何分类内容采集

tiilen

样本网站：http://cd.fang.anjuke.com/loupan/canshu-248764.html?from=loupan_tab

list 错位。怎么去定位？大神帮帮忙

tiilen · 发表于 2016-12-23 09:29:32

ym · 发表于 2016-12-23 09:34:36

在整理箱里建多个抓取内容，与ul下的li一一对应着做映射

tiilen · 发表于 2016-12-23 09:42:22

ym 发表于 2016-12-23 09:34
在整理箱里建多个抓取内容，与ul下的li一一对应着做映射

不同线索表项是错位的。怎么去定位呢？

ym · 发表于 2016-12-23 09:46:01

那就对这些抓取内容设置自定义xpath，参考教程《自定义xpath：精确采集》

tiilen · 发表于 2016-12-23 09:48:23

谢谢大神。

tiilen · 发表于 2016-12-24 16:08:18

ym 发表于 2016-12-23 09:46
那就对这些抓取内容设置自定义xpath，参考教程《自定义xpath：精确采集》

ym大神

<LI></LI> 里面的class 都是一样的，无法用xpath 怎么办呢

可不可以做

当<div class="name">售楼处电话</div> 结果为true，我就采集class

<div class="des">地铁二号线天河路站旁（犀浦外国语学校对面。项目地块边界距天河路站1公里以内） </div>

Fuller · 发表于 2016-12-24 16:32:50

tiilen 发表于 2016-12-24 16:08
ym大神

里面的class 都是一样的，无法用xpath 怎么办呢

如果要抓售楼处电话，那么XPath可以这样写 div[contains(preceeding-sibling::div/text(), '售楼处电话')]/text()

这种自定义xpath很灵活，基本上所有情况都能解决，但是，如果页面上有些有“售楼处电话”，有些没有，用自定义XPath就会稍微复杂一点，在自定义对话框中能看到xpath还分成定位用的和抓取内容用。

如上图，勾上专用定位，抓取内容表达式和定位标志表达式要填写不一样的。因为有些页面上，如果样本页面上“售楼处电话”没有，但是还想在其他网页上抓到他，定位标志表达式一定要指向一个总是存在的节点，因为这个表达式是用来加载规则的，一定要定位得到。而内容表达式就写实际的表达式。

如果你能找到一个样本页面，内容是最全的，那就没有这个麻烦

UL下li如何分类内容采集

共 7 个关于本帖的回复最后回复于 2016-12-24 16:32

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

UL下li如何分类内容采集

共 7 个关于本帖的回复 最后回复于 2016-12-24 16:32

推荐板块

精彩推荐

热门话题

热门用户

共 7 个关于本帖的回复最后回复于 2016-12-24 16:32