本帖最后由 ym 于 2016-7-27 11:09 编辑

内容映射:定义规则的最基本操作,每当新建一个抓取内容(容器节点除外),都要对它做内容映射,映射成功的话,抓取内容的定位编号就会记录下节点序号;
可以选择网页结构dom中最底层的节点,例如text(),或者模块节点,例如div,如下图。

定位标志映射:用于精确定位和提高规则的适用性。如果只做内容映射,其余程序是由爬虫自动选择的,得到的数据规则就会不太通用,当套用到其他网页时可能会采集失败。但是如果再做上定位标志映射,就可以对规则进行人工优化,参考http://www.gooseeker.com/doc/article-232-1.html
只能选择dom中具有@class或@id属性值的节点做定位标志映射,映射成功的话,抓取内容会记录上标志值,但不会记录做定位映射的节点序号,如上图。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2016-6-24 17:58

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 14:41