Python就是因为功能强大,反而会让数据分析任务分神,所以,GooSeeker的目标是提供一系列Jupyter Notebook模板,更贴近数据分析场景,又屏蔽掉很多Python的复杂性。 Jupyter Notebook在数据分析、商业分析、科学计算、教学和科研等场景被广泛接受。在大量的场景中,是没有必要把“编程”放在中心位置的,不需要考虑敲代码的环境,不需要考虑调试程序,不需要管理大块大块的程序。置于Jupyter Notebook中,写代码和写报告是融合,交互的,即不断的尝试-观察-调整-再尝试。而Python语言及程序包已经把很复杂的运算变成了两三行代码就够了,让写代码和写报告融为一体是必然的路线。 GooSeeker提供多个软件,让这类分析任务更加方便,首先,使用GooSeeker网络爬虫软件从网络上采集数据存成excel,还可以利用多个成套的工具箱,比如,微博采集工具箱,快捷采集工具。然后,使用GooSeeker文本分词和情感分析软件,将网络内容进行基本的NLP处理,变成可量化计算的词语、类别、和其他数据结构,比如,共现词矩阵和社交关系图。 GooSeeker又发布一系列Jupyter Notebook模板,将GooSeeker基础软件和Python数据分析整合在一起。因为称为模板,那就是其中的很多内容可以不用修改,套用即可,只需修改几个特点的变量就能分析各种不同的数据,比如,修改输入数据文件名。也可以根据需要裁剪分析内容,就是Jupyter Notebook的cell。 目前集搜客官网会不定期发布一些Jupyter Notebook模板,组成一个系列,覆盖数据分析的多个方面,让数据分析师不用编程就可以直接选择使用。截至当前(2021-06),已发布了如下的Notebook模板和文章: 1. 情感分析结果怎样用Jupyter Notebook生成走势图等图表 2. 微博内容分词后怎样用Jupyter Notebook画词云图 3. Jupyter Notebook在机器学习领域的项目目录结构规划 4. 用Jupyter Notebook的模板管理数据分析过程 6. 实验Jupyter Notebook的code cell的输出结果 7. 集搜客分词结果表用Jupyter Notebook做统计分析—对应Excel功能 8. 在Jupyter Notebook中用python提取pdf表格及文本内容 怎样运行这些Jupyter Notebook模板呢?电脑上需要先安装什么软件环境呢?下面以windows环境为例,做详细介绍 1,安装anaconda Jupyter Notebook的运行环境,建议安装Anaconda,好用,省事,尤其对于数据分析师来说,这个一键安装的软件包是最合适的。 Anaconda是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项,是整合了python和大量第3方库的一个集成环境,用户不用花时间去处理环境依赖。 目前Anaconda 和 Jupyter(包括Jupyter Notebook和JupyterLab,其中JupyterLab是从Notebook发展而来的)已成为数据分析的标准环境。 1.1 下载 安装包官网下载网址:https://www.anaconda.com/products/individual#Downloads 选择对应的版本下载。 1.2 安装 双击下载的exe文件, 按提示一步步继续就可以,当有多个选项时,就按default选项就可以了 2,下载和解压模板文件 2.1 下载GooSeeker发布的Notebook模板 比如这个模板: 情感分析结果怎样用Jupyter Notebook生成走势图等图表 下载后的文件:情感分析结果怎样用JupyterNotebook生成走势图-v2.0.zip 2.2 解压下载的模板zip文件 把文件(情感分析结果怎样用JupyterNotebook生成走势图-v2.0.zip)复制到用户目录,windows下就是:C:\users\当前用户名\ ,然后解压到当前目录 解压后,会看到当前文件夹下多了一个文件夹:情感分析结果怎样用JupyterNotebook生成走势图 如果专业做数据分析或者商业分析项目,可能每周都会做一个项目,那么有必要规划好项目目录,把模板解压到合适的目录中。 3,运行JupyterNotebook 3.1 点击运行Jupyter Notebook 3.2 打开notebook所在文件夹 在打开的浏览器中,点开文件夹:情感分析结果怎样用JupyterNotebook生成走势图 点击notebook/eda下面那个ipynb文件 解压后的目录层次挺多,为什么这么复杂,有必要阅读 Jupyter Notebook在机器学习领域的项目目录结构规划。所有模板采用一样的目录结构,这个结构有些复杂,可以支持很大的分析项目,也可以支持偏重计算的编程预研和数据探索项目。 3.3 安装第3方库 虽然Anaconda已经预装了大量第三方程序库,但是偶尔还是需要再装一些数据处理程序,例如,数据可视化,统计分析,中文信息处理等等。 在打开的ipynb文件中,找到第三方库这一部分,看看有没有需要安装的库,如果有,则按如下步骤安装: 3.3.1 打开shell窗口 3.3.2 安装所需的第三方库 本例中是安装pyecharts 3.4 运行整个Notebook 也可以一段一段的运行。 运行后可以看到生成的走势图 |