用Jupyter Notebook的模板管理数据分析过程

2021-2-19 10:12| 发布者: Fuller| 查看: 4898| 评论: 0

摘要: CookieCutter的开发者在 Building a Repeatable Data Analysis Process with Jupyter Notebooks 一文讲解了怎样规划数据分析项目的目录结构和notebook的结构,跟《Jupyter Notebook在机器学习领域的项目目录结构规划 ...

CookieCutter的开发者在 Building a Repeatable Data Analysis Process with Jupyter Notebooks 一文讲解了怎样规划数据分析项目的目录结构和notebook的结构,跟《Jupyter Notebook在机器学习领域的项目目录结构规划》不同,作者虽然也强调了规划项目目录的重要性,但是,更侧重于从契合数据分析过程方面怎样规划notebook内容结构。

文中展示了一个数据处理流程图,主要有数据准备、数据处理、数据探索、报告等过程,所以作者强调:如果有多个notebook文件对应不同处理阶段,应该给他们编上顺序号。另外,跟《Jupyter Notebook在机器学习领域的项目目录结构规划》不同,data文件夹还有一个interrim文件夹,用于存储中间数据,不要与raw和processed数据混在一起。

该文重点还是将notebook structure,像一个文档模板,主要有这些部分:

A:项目描述部分

1,notebook名称

2,header部分:概要说明这个项目

3,项目动机描述:主要描述项目的来龙去脉,作为一个context备忘,可以记录一些名字、email、时间等信息

4,数据源列表

5,修改历史(change log):记录比较大的变动

B:数据处理环境准备

1,import必要的python包

2,定义时间戳和存储路径变量

C:数据说明部分

1,数据字段的说明

2,数据字段类型的说明

另外,该文还规定了一些其他内容,就像文档写作规范一样。而整个notebook模板都可以用CookieCutter生成


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-11-18 16:46