主题名:店铺_1 ; 测试网址:http://tdjy.zjdlr.gov.cn/GTJY_ZJ/landinfo?ResourceID=7955&flag=01主要想抓取“地块编号”、“成交时间”、“成交价”和“竞得单位”这几个数据。单个页面抓取没什么问题,但是多个网页表结构就不一样导致数据错乱,想要利用Xpath的方法进行精准抓取。

用了这个规则,但还是出现了下面的错误:

在成交价里面出现了别的东西。。。
求大神解答。

file:///C:\Users\qxq\AppData\Roaming\Tencent\Users\511041590\QQ\WinTemp\RichOle\$@LQQ11}$Z7HDAOT{_8Q%_O.png


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-7-31 15:19

沙发
wangyong 版主 发表于 2018-7-31 12:11:56 | 只看该作者
自定义的xpath都这么写
  1. .//*[@class='td_line2']/table/tbody/tr/td[contains(text(),'成交价')]/following-sibling::td[1]/text()
复制代码
以此类推
举报 使用道具
板凳
xingjay8 金牌会员 发表于 2018-7-31 12:26:56 | 只看该作者
wangyong 发表于 2018-7-31 12:11
自定义的xpath都这么写以此类推

为什么按这个Xpath写之后,测试没有了抓取内容?



举报 使用道具
地板
wangyong 版主 发表于 2018-7-31 15:19:58 | 只看该作者
整理箱顶节点做上定位标志映射,不是每页都有的抓取内容不要勾选关键内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 08:34