主题名:新豆瓣电影数据分析-中国大陆


运行规则采集数据之后,进行导入时发现数据量过大无法导出,明明之前做过一次采集豆瓣电影数据不限地区的数据量也没那么大,本次加上中国大陆这一限定之后数据量却有一百多万条。于是就用xml转excel试了下,发现每一个xml文件里的数据都是上一个xml的内容加上新的数据,最后大概十个xml里的内容还都是一样的,之前没有注意,直接把所有的xml打包导入到数据管理那里,导致现在超额入库。请问,出现这种xml数据重复情况是什么原因造成的呀,还有就是怎么样才可以把超额的数据量清除呢?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-4-1 21:25

沙发
Mu_shui_GS2020 初级会员 发表于 2020-4-1 15:50:12 | 只看该作者
本帖最后由 Mu_shui_GS2020 于 2020-4-1 15:55 编辑

另外,刚又重新做了一下采集,发现导出了大概131个xml文件,因为每个大小都一样,所以就转成excel观察,发现每一个xml文件的数据信息和数据量都是完全一致的,求问,这是怎么回事呀?


是因为豆瓣账号登陆异常的原因吗?
举报 使用道具
板凳
maomao 论坛元老 发表于 2020-4-1 18:03:43 | 只看该作者
这个页面是瀑布流,看看这个帖子https://www.gooseeker.com/doc/thread-1820-1-1.html,采集到XML文件应该是一个比一个大,把最大的XML文件倒入就可以了。你的规则没有问题。
举报 使用道具
地板
Mu_shui_GS2020 初级会员 发表于 2020-4-1 21:25:56 | 只看该作者
maomao 发表于 2020-4-1 18:03
这个页面是瀑布流,看看这个帖子https://www.gooseeker.com/doc/thread-1820-1-1.html,采集到XML文件应该 ...

好的,谢谢你,终于知道是怎么回事了

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-22 10:58