打包下载excel格式的数据

2020-11-30 10:44| 发布者: Fuller| 查看: 13159| 评论: 0

摘要: 集搜客数据管家(增强版网络爬虫软件)跟老版本不同,省掉了手工压缩成zip文件的操作,实现了一键打包入库。可以将采集得到的原始的xml文件转换成excel文件。如果想直接使用xml文件,跳到文末看关于xml文件的内容。 ...

       配套软件版本:V10及更高 数据管家——增强版网络爬虫

       老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《查看数据结果》和《xml转excel


集搜客数据管家(增强版网络爬虫软件)跟老版本不同,省掉了手工压缩成zip文件的操作,实现了一键打包入库。

爬完数据后,爬虫窗口会提示,导出excel文件。利用这个功能,可以将采集得到的原始的xml文件转换成excel文件。如果想直接使用xml文件,跳到文末看关于xml文件的内容。

确认后,自动转到数据管理界面,注意要看清楚任务的名字,尤其是任务很多的时候,要在任务列表中找到正确的任务名。本例中,当前的任务名是JD-牛仔裤男,我们要导出这个任务采集到的数据。

找到这个任务,点击 导出数据

注意1:上述操作是用来打包手工启动的爬虫生成的数据。如果是运行在自动的爬虫群模式下,打包入库不需要手工点按钮的,都自动完成了。

注意2:如果打包入库的数据很多,入库时间会比较长,点击“导出Excel”跳转到任务管理界面上时,很可能入库过程还没有全部完成,如果导出数据按钮是灰色,或导出数据偏少,应该等待一会再刷新一下界面,看看是否有更多可导出的数据。



然后下载数据

下载完成后,会在爬虫软件的底部下载状态条上显示这个数据包,点击这个信息,就能打开文件夹。

下载到的数据是个ZIP包,缺省保存到电脑的下载文件夹,在下载的时候,会提示存在哪里,也可以选其他存储位置。


点击这个ZIP文件,一般会自解压成excel文件



打开这个excel文件,就看到我们采集到的数据



上面,我们直接下载了excel形式的数据文件。一般的使用,了解这些就够了。

如果,你还想了解采集结果原始数据的XML文件,可以看教程《网络爬虫生成的XML文件》。具体的XML文件的字段解释:《爬虫数据的XML格式》。


上篇文章:《网络爬虫软件翻页采集列表数据》                                下篇文章:《XML格式结果文件


鲜花

握手

雷人

路过
1

鸡蛋

刚表态过的朋友 (1 人)

最新评论

GMT+8, 2024-12-21 20:16