做采集规则的时候,直观标注很方便。在网页上点一下鼠标,就把要爬取的内容标记好了,爬虫运行的时候,自动去采集这些内容。但是有些内容(比如网页上的超链接),并没有直接显示在网页上,或者有些内容即使显示了,但是用直观标注不能精确标记出来。这时,就需要用到内容映射。 内容映射,要在对应的DOM节点上操作。 1. 内容映射采集超链接 下面以京东列表页上商品链接为例,说明怎样用内容映射的方法,把商品链接映射给一个新建内容(字段)。 在定义规则状态,点击商品名,在下面的的DOM栏中,光标对应到一个DOM节点,一般链接都存放在A节点下的属性节点href中。 右键href节点,内容映射-新建内容 给新建内容起个名字叫做"商品链接",因为采集的是网址链接,href节点内的网址不完整,所以要勾选补全网址。 做好了,我们测试一下,看到商品链接抓到了。 2. 内容映射采集一般网页内容 比如我们要采集这篇文章,但是在网页上用直观标注只能选中一段,到DOM节点上去做内容映射,可以把整篇文章采集到。 点击文章第一段,光标对应到下面的节点,沿着节点向上找,直到一个节点,点击它,整篇文章在闪亮的边框内,表示整篇文章被选中。鼠标右键这个节点,内容映射-新建内容,再给新内容起个名字。 这个例子中,新建内容的名字是文章。整篇内容被映射给了文章。 因为我们采集是文本内容,所以要选择纯文本。 上篇文章:《爬网址做层级采集》 下篇文章:《定位映射提高网页采集精度》 |
澍翊: 有些网页A标签下面没有href属性,这怎么办