apache-spark - 如何使用 jupyter notebook 运行 pyspark？

标签 apache-spark pyspark pyspark-sql

当我在控制台中运行命令 pyspark 时，我试图启动 jupyter notebook。当我现在输入它时，它只会在控制台中启动和交互式 shell。但是，这不方便键入长代码行。有没有办法将 jupyter notebook 连接到 pyspark shell？谢谢。

最佳答案

我假设您已经安装了 spark 和 jupyter 笔记本，并且它们可以完美地相互独立地工作。

如果是这种情况，请按照以下步骤操作，您应该能够启动带有 (py)spark 后端的 jupyter 笔记本。

转到您的 spark 安装文件夹，那里应该有一个 bin 目录:/path/to/spark/bin

创建一个文件，我们称之为 start_pyspark.sh

打开 start_pyspark.sh 并编写如下内容:

    #!/bin/bash

export PYSPARK_PYTHON=/path/to/anaconda3/bin/python
export PYSPARK_DRIVER_PYTHON=/path/to/anaconda3/bin/jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook --NotebookApp.open_browser=False --NotebookApp.ip='*' --NotebookApp.port=8880"

pyspark "$@"

将 /path/to ... 分别替换为您安装 python 和 jupyter 二进制文件的路径。

这一步很可能已经完成，但以防万一
通过添加以下行来修改您的 ~/.bashrc 文件

# Spark
导出路径="/path/to/spark/bin:/path/to/spark/sbin:$PATH"
export SPARK_HOME="/path/to/spark"
导出 SPARK_CONF_DIR="/path/to/spark/conf"

运行 source ~/.bashrc 就可以了。

继续尝试 start_pyspark.sh 。
您还可以为脚本提供参数，例如start_pyspark.sh --packages dibbhatt:kafka-spark-consumer:1.0.14 。

希望可以帮助你。

关于apache-spark - 如何使用 jupyter notebook 运行 pyspark？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48915274/

上一篇：sublimetext2 - 如何单独更改每个文件的 Sublime Text 中的字体大小？

下一篇：react-native - react-native 中的 navigator.geolocation.getCurrentPosition 是否与本地地理定位方法一样准确？

sql-server - 我可以更改作为表加载到 SQL Server 的 Spark 数据框列的数据类型吗？

python - 使用 pandas_udf 和 Parquet 序列化时内存泄漏？

performance - 有什么方法可以提高 PySpark 输出的效率吗？

multithreading - 使用 spark-submit，--total-executor-cores 选项的行为是什么？

apache-spark - 在 Spark 中计算逐点互信息

python - pyspark:返回不完整的 URI 错误

python - 如何使用 .createDataFrame() 读取标题？

apache-spark - 如何查看 SPARK 发送到我的数据库的 SQL 语句？

apache-spark - Hadoop 3和spark.sql:与HiveWarehouseSession和spark.sql一起使用