xml数据出错，数据量超额问题

Mu_shui_GS2020

主题名：新豆瓣电影数据分析-中国大陆

运行规则采集数据之后，进行导入时发现数据量过大无法导出，明明之前做过一次采集豆瓣电影数据不限地区的数据量也没那么大，本次加上中国大陆这一限定之后数据量却有一百多万条。于是就用xml转excel试了下，发现每一个xml文件里的数据都是上一个xml的内容加上新的数据，最后大概十个xml里的内容还都是一样的，之前没有注意，直接把所有的xml打包导入到数据管理那里，导致现在超额入库。请问，出现这种xml数据重复情况是什么原因造成的呀，还有就是怎么样才可以把超额的数据量清除呢？

Mu_shui_GS2020 · 发表于 2020-4-1 15:50:12

本帖最后由 Mu_shui_GS2020 于 2020-4-1 15:55 编辑

另外，刚又重新做了一下采集，发现导出了大概131个xml文件，因为每个大小都一样，所以就转成excel观察，发现每一个xml文件的数据信息和数据量都是完全一致的，求问，这是怎么回事呀？

是因为豆瓣账号登陆异常的原因吗？

maomao · 发表于 2020-4-1 18:03:43

这个页面是瀑布流，看看这个帖子https://www.gooseeker.com/doc/thread-1820-1-1.html，采集到XML文件应该是一个比一个大，把最大的XML文件倒入就可以了。你的规则没有问题。

Mu_shui_GS2020 · 发表于 2020-4-1 21:25:56

maomao 发表于 2020-4-1 18:03
这个页面是瀑布流，看看这个帖子https://www.gooseeker.com/doc/thread-1820-1-1.html，采集到XML文件应该 ...

好的,谢谢你，终于知道是怎么回事了

xml数据出错，数据量超额问题

共 3 个关于本帖的回复最后回复于 2020-4-1 21:25

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

xml数据出错，数据量超额问题

共 3 个关于本帖的回复 最后回复于 2020-4-1 21:25

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2020-4-1 21:25