大家好。我正在尝试用metaseeker完成公司的一个project。我成功得到以下输出结果:
<?xml version="1.0" encoding="UTF-8"?>
夏普彩电LCD-26Z100A¥2699.00海信彩电TLM42V78PK¥5499.00海信彩电TLM32V78K¥3599.00海尔彩电LP42K3¥6990.00海尔彩电LE22T3(黑)¥2290.00康佳彩电LC40IS88EN¥9490.00三洋彩电LCD-40CA610¥3990.00三星彩电LA46C650L1FXXZ¥10999.00三星彩电LA46C550J1FXXZ¥8499.00三星彩电LA40C550J1FXXZ¥6499.00
但用excel却打不开这个结果。请问怎样才能把它转化成excel可读的格式呢?
这个朋友的建议是否有帮助
这个帖子最后的跟贴给出了一个操作EXCEL的操作方法,我从来没有用EXCEL试过,以前都是直接入库的。打不开也有可能是网页上有控制字符,被提取下来了,所以,结果文件一定要做一次过滤,我曾经贴出过一段Java代码,我找一下。
我试着用firefox打开这
我试着用firefox打开这个xml,也得到
错误信息:
XML Parsing Error: not well-formed
信息提取结果文件过滤方法
请看操作手册的《过滤Web数据抽取结果文件的Java程序》,网页上经常有位于编码段0~1F的非ASCII码字符,虽然眼睛看不到,但是会影响XML的解析,有时候Firefox解析不了,但是IE能够解析,所以一定要用这段代码过滤所有结果文件
谢谢。 请问有现成/简
谢谢。
请问有现成/简单修改能用的程序把输出的xml文件转换成Excel可读的xml或csv文件?
也许在网络上搜一下会有些结果
我现在也不敢肯定有些文件不能用EXCEL读的原因一定是由非法字符导致的,因为提取结果文件的XML用树状结构存储内容,而且树的形状没有限制,会不会转换成EXCEL表格时遇到了麻烦。根据我编程的经验,将树状内容存入数据库表时,要分解成多个有外键关联的表。所以,从XML树状结构转换成表状结构并不是很简单的事情,我不知道EXCEL是怎样处理的。
当前,MetaSeeker用户还没有报告说提取结果文件本身组织的不好导致无法解析,我们在数据集成过程中也暂时没有发现问题。不好意思,不能给予实质性的建议,我们确实几乎没有用EXCEL处理过。以后我们会做这一方面的探索,可以将你的某个结果文件发给我们以供分析。邮箱:fullerhua@hotmail.com