配套软件版本:V10及更高 数据管家——增强版网络爬虫 老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《查看数据结果》 在《打包下载Excel格式的采集结果数据》一文,下载的数据是Excel格式的,其实,在网络爬虫采集数据过程中,数据首先是以XML格式保存到你本地电脑的DataSraperWorks目录下,一页一个XML文件,在导出excel文件时,这些XML文件自动打包上传。 如果,因为电脑或者网络的原因,数据打包上传失败了,我们可以到这个目录下,手工把这些XML文件打包压缩成ZIP格式的数据包,然后到会员中心的数据管理界面,点击导入XML按钮,完成上传,会员中心把XML转换成Excel以后,你点击导出数据,下载excel文件。 我们还可以改变XML数据的存储路径。在这里更改,点击数据管家(增强版网络爬虫软件)左侧边栏的设置按钮。 点击选择路径,改变存储路径(默认的存储路径是DataSraperWorks文件夹),让爬虫把采集到的XML文件存放到你喜欢的路径。 注意1:不要把存储路径改到桌面desktop,有些电脑没有完全开放桌面的存文件权限,就会生成不了结果文件 注意2:如果你的电脑除了系统盘以外,还有数据盘,最好把存储路径改成数据盘的文件夹,防止网络爬虫把系统盘写满。 如果想进一步了解XML文件中每个字段的含义,参看《XML文件结构》 上篇文章:《打包下载Excel格式的采集结果数据》 下篇文章:《爬网址做层级采集——以京东商品爬虫为例》 |