快捷导航

内容映射

2020-12-15 19:04| 发布者: Fuller| 查看: 438| 评论: 0

摘要: 做采集规则的时候,直观标注很方便。在网页上点一下鼠标,就把要爬取的内容标记好了,爬虫运行的时候,自动去采集这些内容。但是有些内容(比如网页上的超链接),并没有直接显示在网页上,或者有些内容即使显示了, ...

做采集规则的时候,直观标注很方便。在网页上点一下鼠标,就把要爬取的内容标记好了,爬虫运行的时候,自动去采集这些内容。但是有些内容(比如网页上的超链接),并没有直接显示在网页上,或者有些内容即使显示了,但是用直观标注不能精确标记出来。这时,就需要用到内容映射。

内容映射,要在对应的DOM节点上操作。

1. 内容映射采集超链接

下面以京东列表页上商品链接为例,说明怎样用内容映射的方法,把商品链接映射给一个新建内容(字段)。

在定义规则状态,点击商品名,在下面的的DOM栏中,光标对应到一个DOM节点,一般链接都存放在A节点下的属性节点href中。


右键href节点,内容映射-新建内容

给新建内容起个名字叫做"商品链接",因为采集的是网址链接,href节点内的网址不完整,所以要勾选补全网址。

做好了,我们测试一下,看到商品链接抓到了。


2. 内容映射采集一般网页内容

比如我们要采集这篇文章,但是在网页上用直观标注只能选中一段,到DOM节点上去做内容映射,可以把整篇文章采集到。

点击文章第一段,光标对应到下面的节点,沿着节点向上找,直到一个节点,点击它,整篇文章在闪亮的边框内,表示整篇文章被选中。鼠标右键这个节点,内容映射-新建内容,再给新内容起个名字。

这个例子中,新建内容的名字是文章。整篇内容被映射给了文章。

因为我们采集是文本内容,所以要选择纯文本。


上篇文章:爬网址做层级采集》                                           下篇文章:《定位映射提高网页采集精度


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2021-1-23 21:55