本帖最后由 umsung 于 2017-9-6 11:53 编辑

采集网站http://vip.stock.finance.sina.co ... isplaytype/30.phtml
用样例复制采集数据,绝大部分都采集下来了,还是有一部分数据缺失了,为什么?


33.jpg (193.21 KB, 下载次数: 510)

33.jpg
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-8-31 15:59

沙发
bowieD 金牌会员 发表于 2017-8-31 15:59:57 | 只看该作者
本帖最后由 bowieD 于 2017-9-6 11:54 编辑

首先分析没有采集到的数据,这些数据的节点和其他数据的节点不同,正常的数据的文本节点都在A节点下,但是没有被采集到数据的文本节点不在A节点下,而是直接在DIV节点下,所以给样例抓取内容做定位映射时,不能用最底层的文本节点Text()来做内容映射,否则做样例复制就会出现有部分数据抓取不到。

7.jpg (96.82 KB, 下载次数: 516)

7.jpg

22.jpg (105.26 KB, 下载次数: 688)

22.jpg
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 10:54