快捷导航

用Excel合并集搜客网络爬虫采集到的多张表

2019-4-2 09:00| 发布者: Fuller| 查看: 451| 评论: 0

摘要: 怎样用Excel的VLOOPUP公式合并两张表。很多情况下我们需要的数据往往在不同页面上,用集搜客GooSeeker网络爬虫把需要的数据采集下来后,会有多个excel表格,而我们需要的是把字段合并到一个excel表格中,这个工作使 ...

1,本文要点

阅读本文将学到的技能:怎样用Excel的VLOOPUP公式合并两张表

2,应用场景介绍

很多情况下我们需要的数据往往在不同页面上,用集搜客GooSeeker网络爬虫把需要的数据采集下来后,会有多个excel表格,而我们需要的是把字段合并到一个excel表格中,这个工作使用Excel的VLOOPUP函数可以完成。

下面以财经环球网的采集结果为例进行讲解。从财经环球网采集下来的结果存成了两个表格,一个存列表,一个存每个网页的详情内容。列表页爬虫先将所有新闻的链接采集下来,详情页爬虫再使用这些链接对新闻详情进行采集。这是典型的集搜客网络爬虫层级采集结果。层级采集不限于两层,很可能还有三层,比如,在新闻详情页上还有评论,评论可以用第三层采集。最后需要把多层采集结果合并在一起,关联成一个完整的Excel。

列表爬虫采集的字段分别是新闻的标题,发布时间,详情链接;而详情爬虫采集的是新闻的标题,发布时间,文章来源,正文-纯文本,正文-Html。详情页的爬虫是无法采集到新闻本身的url,就需要要合并列表页详情链接。

3,寻找关联字段,用Excel做合并


上图是列表页的采集结果

上图是详情页的采集结果

可点击放大上两图做对比,图1的详情链接字段是和图2的fullpath字段一一对应,并且该字段信息具有唯一性,即两者是一 一对应的关系,所以我们可以根据这两个字段来合并两个Excel表。

3.1,把要合并的内容拷贝到同一个文件中的不同表中

为了简化操作,我们先把列表爬虫采集到的Excel内容和详情页爬虫采集到的Excel内容拷贝到同一个Excel文件中,分别放在两个不同的表格中。如上图,列表和详情分别占一个页签。

3.2,使用VLOOPUP进行合并

在“详情”表中创建一列,用来存从“列表”表中合并过来的列。

我们要将‘列表’表中的<详情链接>这列合并到‘详情’表中,则要在‘详情’表的I2单元格输入函数

=VLOOKUP(J2,列表!D:E,1,FALSE)

表示要在‘列表’表中的D:E区域内的第1列(D列)查找出与‘详情’表的J2单元格相对应的那一行,然后把第1列(D列)的数据值返回给‘详情’表的I2单元格。

点击‘详情’表的I2单元格右下角的+号,往下拖动就会填充一整列,如图三所示,‘列表’表中的<详情链接>都对应匹配到“详情”表的<详情链接>里了。


鲜花

握手

雷人

路过

鸡蛋

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-4-25 03:45