本帖最后由 ym 于 2016-7-27 11:09 编辑

内容映射:定义规则的最基本操作,每当新建一个抓取内容(容器节点除外),都要对它做内容映射,映射成功的话,抓取内容的定位编号就会记录下节点序号;
可以选择网页结构dom中最底层的节点,例如text(),或者模块节点,例如div,如下图。

定位标志映射:用于精确定位和提高规则的适用性。如果只做内容映射,其余程序是由爬虫自动选择的,得到的数据规则就会不太通用,当套用到其他网页时可能会采集失败。但是如果再做上定位标志映射,就可以对规则进行人工优化,参考http://www.gooseeker.com/doc/article-232-1.html
只能选择dom中具有@class或@id属性值的节点做定位标志映射,映射成功的话,抓取内容会记录上标志值,但不会记录做定位映射的节点序号,如上图。

举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2016-6-24 17:58

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 08:26