主题名:新豆瓣电影数据分析-中国大陆


运行规则采集数据之后,进行导入时发现数据量过大无法导出,明明之前做过一次采集豆瓣电影数据不限地区的数据量也没那么大,本次加上中国大陆这一限定之后数据量却有一百多万条。于是就用xml转excel试了下,发现每一个xml文件里的数据都是上一个xml的内容加上新的数据,最后大概十个xml里的内容还都是一样的,之前没有注意,直接把所有的xml打包导入到数据管理那里,导致现在超额入库。请问,出现这种xml数据重复情况是什么原因造成的呀,还有就是怎么样才可以把超额的数据量清除呢?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-4-1 21:25

Mu_shui_GS2020 初级会员 发表于 2020-4-1 15:50:12 | 显示全部楼层
本帖最后由 Mu_shui_GS2020 于 2020-4-1 15:55 编辑

另外,刚又重新做了一下采集,发现导出了大概131个xml文件,因为每个大小都一样,所以就转成excel观察,发现每一个xml文件的数据信息和数据量都是完全一致的,求问,这是怎么回事呀?


是因为豆瓣账号登陆异常的原因吗?
举报 使用道具
maomao 论坛元老 发表于 2020-4-1 18:03:43 | 显示全部楼层
这个页面是瀑布流,看看这个帖子https://www.gooseeker.com/doc/thread-1820-1-1.html,采集到XML文件应该是一个比一个大,把最大的XML文件倒入就可以了。你的规则没有问题。
举报 使用道具
Mu_shui_GS2020 初级会员 发表于 2020-4-1 21:25:56 | 显示全部楼层
maomao 发表于 2020-4-1 18:03
这个页面是瀑布流,看看这个帖子https://www.gooseeker.com/doc/thread-1820-1-1.html,采集到XML文件应该 ...

好的,谢谢你,终于知道是怎么回事了

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 06:30