快捷导航

如何将XML结果文件导入excel

2015-8-27 10:11| 发布者: HJLing| 查看: 18421| 评论: 21

摘要: 使用集搜客GooSeeker采集到的数据为XML格式保存在本地电脑中,为方便用户进一步处理数据,以EXCEL2013版为例,讲解如何将XML结果文件导入excel 方法一 将宏文件放在结果文件夹中。 打开宏文件,点击“启用内容”。 ...

一、两种操作方式

通过会员中心使xml格式转为excel格式共有两种方式,分为手工和自动,操作步骤如下:

方式一 :通过规则管理界面手工导入数据,然后导出excel数据(注意控制ZIP包的大小

方式二 : 设置自动入库再用爬虫群采数据,最后导出excel数据


二、操作步骤

方式1:通过规则管理界面手工导入数据,然后导出excel数据

1.1,在硬盘的主题名文件夹里选中多个xml文件直接压缩到zip包,不要夹杂除xml外的文件夹其他文件类型

1.2,登录集搜客官网,进入会员中心->规则管理->我的规则。

1.3,点击对应主题名进入到管理页面,点击“导入数据”按钮,点击附件,选择数据包zip,点击导入。

1.4,导入成功后即可“导出数据”,在“历史记录”中可以重复下载。

注意:ZIP包不能大于10M,为了稳定上传,最好分批压缩成多个2M的包。



方式2:设置自动入库再用爬虫群采数据,最后导出excel数据

2.1,登录集搜客官网,进入会员中心->规则管理->我的规则。

2.2,点击对应主题名进入到管理页面,点击“调度”按钮,勾选“结果入库”,点击“确认”。

2.3,然后运行爬虫群采集数据。爬虫群使用方法:打开DS打数机的菜单,选择爬虫群菜单->配置,勾上自启动,再点击保存,最后重启DS打数机,就会弹出爬虫窗口自动采集该主题的网页数据。

2.4,采集完成后,回到主题的管理页面,点击“导出数据”即可。

【注意】必须使用爬虫群窗口采集数据,才会自动导入数据。点击单搜/集搜/爬数据按钮,其爬虫窗口不受调度控制。

【注意】数据管理功能是增值服务,每个规则可以免费导出1万条数据,超额请购买“专业版or旗舰版爬虫”或“数据仓库”来扩大储存量后再继续导出数据,或购买“仓库清扫”清理旧数据后再来存储新数据。


上篇文章:《采集网页数据》                                                                           下篇文章:《DS打数机采集数据》

若有疑问可以或集搜客爬虫软件
31

鲜花

握手
2

雷人

路过
2

鸡蛋

刚表态过的朋友 (35 人)

相关阅读

发表评论

最新评论

评论 Fuller 2017-6-20 22:52
WANGXIAOLEI: 导出数据后,为什么没有在桌面上显示EXCEL文件了。查找了整个电脑也没有发现
导出成功后,会提示下载,点击下载,会下载到本地的下载目录下,是一个ZIP文件。双击解压,会得到EXCEL文件
评论 WANGXIAOLEI 2017-6-20 22:33
导出数据后,为什么没有在桌面上显示EXCEL文件了。查找了整个电脑也没有发现
评论 Fuller 2017-1-7 14:37
clairemz925: 隐藏模块中出现编译错误:“模块1”。当代码与此应用程序的版本、平台或体系结构不兼容时,通常会发生此错误。 ...
Mac下的excel和Windows的不太一样,处理不了数据导入,选用方案1吧
评论 clairemz925 2017-1-7 14:26
隐藏模块中出现编译错误:“模块1”。当代码与此应用程序的版本、平台或体系结构不兼容时,通常会发生此错误。
评论 Fuller 2016-11-17 07:27
选择菜单  视图-》宏-》查看宏 。这个含有宏的excel处理能力有限,用于小批量数据整理。数据量大的话,应该使用会员中心的入库功能。购买了专业版以后,数据仓库的容量可用于中等规模的数据整理,而且还赠送了积分用于下载数据或者抓取规则。
Zoe_91: 视图里没有“宏”这个选项啊,明明选择了启用
评论 Zoe_91 2016-11-17 04:41
视图里没有“宏”这个选项啊,明明选择了启用
评论 karrow 2016-8-13 10:07
宏错误
评论 Fuller 2016-6-10 15:17
strayess: 每当执行宏,EXCEL就会死机 请问怎么解决?
如果数据量大的话,导入到会员中心吧,在那里导出成excel
评论 strayess 2016-6-10 13:34
每当执行宏,EXCEL就会死机 请问怎么解决?
评论 高山深谷95 2016-5-14 12:32
好,可以用
评论 Fuller 2016-5-12 10:39
llssyy: 在转换时会报错,提示: 运行时错误’-2147217376(80041020)‘;文本内容中发现无效字符。 然后数据导入就停止了,数据导入的也不全,这种要如何解决? ...
网页采集会遇到很多特殊字符,excel宏方式比较容易受到影响,建议使用会员中心的数据导入功能,导入过程会清洗特殊字符,能比较顺利导出excel
评论 llssyy 2016-5-12 09:49
wangyong: 现在已经重新编写了excel宏文件,不会出现这种问题
在转换时会报错,提示: 运行时错误’-2147217376(80041020)‘;文本内容中发现无效字符。 然后数据导入就停止了,数据导入的也不全,这种要如何解决?
评论 ym 2016-4-26 10:41
beidou: 隐藏模块出现编译错误:模块1 这是怎么回事?
excel本身是不支持某些特殊字符,建议使用集搜客官网提供的数据管理功能来转excel格式,支持免费导出1万条数据,超过部分可根据需要,选择购买数据仓库或仓库清扫服务进行扩容,使用方法参见文章的第四步操作http://www.gooseeker.com/doc/article-200-1.html
评论 beidou 2016-4-25 23:38
隐藏模块出现编译错误:模块1 这是怎么回事?
评论 荷叶何田田 2016-3-8 17:35
按图索骥,总算搞定了!
评论 Fuller 2016-2-1 10:02
duan416389: 下标越界什么意思?
下标越界问题可以具体说说,比如,你是下载的哪个入库工具?网站上有三个,有官方和网友制作的。

目前还有会员中心的云存储入库功能,更强大,具体参看:http://www.gooseeker.com/doc/article-197-1.html
评论 duan416389 2016-2-1 04:46
下标越界什么意思?
评论 Fuller 2015-12-14 17:39
魅灬青花瓷: 如果只是查看的话不是可以直接用excel打开xml文件吗?
如果打开单个文件进行查看,就用普通excel就够了,如果要处理一批,就需要这个软件
评论 魅灬青花瓷 2015-12-14 15:28
如果只是查看的话不是可以直接用excel打开xml文件吗?
评论 wangyong 2015-10-14 10:02
现在已经重新编写了excel宏文件,不会出现这种问题

查看全部评论(21)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-25 10:42