本帖最后由 ym 于 2016-7-27 11:09 编辑

内容映射:定义规则的最基本操作,每当新建一个抓取内容(容器节点除外),都要对它做内容映射,映射成功的话,抓取内容的定位编号就会记录下节点序号;
可以选择网页结构dom中最底层的节点,例如text(),或者模块节点,例如div,如下图。

定位标志映射:用于精确定位和提高规则的适用性。如果只做内容映射,其余程序是由爬虫自动选择的,得到的数据规则就会不太通用,当套用到其他网页时可能会采集失败。但是如果再做上定位标志映射,就可以对规则进行人工优化,参考http://www.gooseeker.com/doc/article-232-1.html
只能选择dom中具有@class或@id属性值的节点做定位标志映射,映射成功的话,抓取内容会记录上标志值,但不会记录做定位映射的节点序号,如上图。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2016-6-24 17:58

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-1-15 21:47