本帖最后由 吐槽小能手 于 2021-8-27 11:31 编辑

1 jupyter notebook安装
安装Anaconda,下载地址:https://www.anaconda.com/products/individual#Downloads
注意Anaconda安装后,已经带了juyter notebook, 所以安装完Anaconda后就可以使用jupyter notebook了。
下载安装包后,操作步骤如下:
1) 双击打开,点击Next


2)点击I Agree


3) 点击Next


4) 选择安装路径(可自定义或使用默认安装路径)后,点击Next


5) 点击Install,等待安装完成后

6) 安装完成后点Next


7) 取消勾选下图的两个选项,点击Finish


8) 打开开始菜单,找到安装的Anaconda3目录,打开后找到Jupyter Notebook,点击打开




此时的 Jupyter Notebook 默认工作目录为 C:\Users\你的电脑名,如果想修改jupyter notebook的默认工作路径,可以按如下操作:
1)打开开始菜单,找到安装的Anaconda3目录,打开后找到 Anaconda Prompt,点击打开


2) 输入: jupyter notebook --generate-config
这个命令的作用是生成Jupyter Notebook的配置文件。如果你是第一次运行,会直接生成这个文件。如果曾经运行过这个命令,就会像下图一样问你时候要覆盖原来的文件。这个时候输入n掉过。我们的主要目的只是为了找到这个文件的路径。


3)复制配置文件路径,在文件管理器中打开,然后找到c.NotebookApp.notebook_dir这个变量,并删除这一行前面的“#”,然后输入需要指定的工作路径

改完后保存。再次通过开始菜单Anaconda3目录下的Anaconda Navigator 进入Jupyter Notebook的时候会发现默认路径已经更改。
然而,如果你直接通过Anaconda3目录下的Jupyter Notebook的快捷方式进入,默认目录还是原来那个。如果需要修改,可以进行如下步骤:
1)找到安装的Anaconda3目录,打开后找到Jupyter Notebook,然后点击右键=》更多=》打开文件夹位置,找到快捷方式所在目录


2)选中快捷方式右键点击属性


3)删除目标栏的”%USERPROFILE%“部分后,点击确定


4) 再双击打开Jupyter Notebook的快捷方式,此时工作路径已经修改好了



2 安装pyspark
1) 点击New=》Python3


2)输入下面的代码后,点击Run
  1. import sys
  2. print(sys.version)
复制代码

此时可以看到python的版本是3.6.5,我们需要下载对应的pyspark版本

3)打开开始菜单,找到安装的Anaconda3目录,打开后找到 Anaconda Prompt,点击打开后,输入下面的代码后回车
  1. pip install pyspark==3.0.1
复制代码


4)回到步骤二的Jupyter Notebook界面进行测试,输入下面的代码,点击Run
  1. from datetime import datetime, date
  2. from pyspark.sql import SparkSession
  3. from pyspark.sql import Row

  4. spark = SparkSession.builder.getOrCreate()
  5. df = spark.createDataFrame([
  6.   Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
  7.   Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
  8.   Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
  9. ])
  10. df.show()
复制代码


到此Jupyter Notebook和pyspark已经安装完成,在此记录一下安装过程。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2021-9-5 10:59

沙发
马涌河畔 金牌会员 发表于 2021-8-27 15:12:39 | 只看该作者
我试试按上面的指引,在Jupyter Notebook配置enable pyspark.
还要不要安装spark计算引擎,就是很多文档提到的:spark-3.1.2-bin-hadoop3.2.tgz  ?
举报 使用道具
板凳
吐槽小能手 初级会员 发表于 2021-8-27 16:07:44 | 只看该作者
马涌河畔 发表于 2021-8-27 15:12
我试试按上面的指引,在Jupyter Notebook配置enable pyspark.
还要不要安装spark计算引擎,就是很多文档提 ...

如果想深入了解sprak,是需要的。
举报 使用道具
地板
Fuller 管理员 发表于 2021-8-27 17:38:43 | 只看该作者
如果装spark-3.1.2-bin-hadoop3.2.tgz的话,是不是要预先吧hadoop安装起来?
举报 使用道具
5#
马涌河畔 金牌会员 发表于 2021-8-28 21:50:25 | 只看该作者
内地环境下安装pyspark,指定用国内的源,安装速度会很快:
  1. pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/
复制代码


举报 使用道具
6#
马涌河畔 金牌会员 发表于 2021-8-29 08:45:48 | 只看该作者
安装了python pyspark, 就已经自动安装了spark, 不需要安装Hadoop,做学习和测试足够了。
如果需要在spark中使用Hadoop的分布式文件系统(HDFS),  那就需要安装配置Hadoop。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
Fuller 管理员 发表于 2021-8-29 10:01:28 | 只看该作者
马涌河畔 发表于 2021-8-29 08:45
安装了python pyspark, 就已经自动安装了spark, 不需要安装Hadoop,做学习和测试足够了。
如果需要在spar ...

如果没有Hadoop,数据持久化保存在哪里?csv文件里面吗?
举报 使用道具
8#
Fuller 管理员 发表于 2021-8-29 10:03:12 | 只看该作者
另外,编程的时候,一直在Spark DataFrame中操作,什么时候执行数据持久化?要像Pandas那样调用一个专门的函数?还是像MySQL数据库那样会自动存到数据库中?
举报 使用道具
9#
内容分析应用 金牌会员 发表于 2021-8-31 09:42:14 | 只看该作者
Spark的数据源,有几项核心数据源:CSV, JSON, Parquet,ORC, JDBC/ODBC连接,纯文本文件
还有很多由社区创建的数据源:Cassandra, HBase,  MongoDB,  AWS Redshift,  XML等。

读取数据和持久化数据, 数据源既可以是基于Hadoop的HDFS分布式文件系统, 也可以是本地文件或其它
比如:
  1. # 读取hadoop文件
  2. read_hdfs = sc.textFile("hdfs/testfile")
  3. # 读取本地文件
  4. read_txt = sc.textFile("file:///home/xiaohuzi/spark_exercise/data/testfile.txt")
复制代码



举报 使用道具
10#
Fuller 管理员 发表于 2021-8-31 10:24:20 | 只看该作者
内容分析应用 发表于 2021-8-31 09:42
Spark的数据源,有几项核心数据源:CSV, JSON, Parquet,ORC, JDBC/ODBC连接,纯文本文件
还有很多由社区创 ...

在DataFrame中处理完了数据,怎样写到持久化存储中?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-18 16:37