本帖最后由 ym 于 2016-7-27 11:09 编辑
内容映射:定义规则的最基本操作,每当新建一个抓取内容(容器节点除外),都要对它做内容映射,映射成功的话,抓取内容的定位编号就会记录下节点序号;
可以选择网页结构dom中最底层的节点,例如text(),或者模块节点,例如div,如下图。
定位标志映射:用于精确定位和提高规则的适用性。如果只做内容映射,其余程序是由爬虫自动选择的,得到的数据规则就会不太通用,当套用到其他网页时可能会采集失败。但是如果再做上定位标志映射,就可以对规则进行人工优化,参考http://www.gooseeker.com/doc/article-232-1.html。
只能选择dom中具有@class或@id属性值的节点做定位标志映射,映射成功的话,抓取内容会记录上标志值,但不会记录做定位映射的节点序号,如上图。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 0 个关于本帖的回复 最后回复于 2016-6-24 17:58