当我在控制台中运行命令 pyspark
时,我试图启动 jupyter notebook。当我现在输入它时,它只会在控制台中启动和交互式 shell。但是,这不方便键入长代码行。有没有办法将 jupyter notebook 连接到 pyspark shell?谢谢。
最佳答案
我假设您已经安装了 spark 和 jupyter 笔记本,并且它们可以完美地相互独立地工作。
如果是这种情况,请按照以下步骤操作,您应该能够启动带有 (py)spark 后端的 jupyter 笔记本。
bin
目录:/path/to/spark/bin
start_pyspark.sh
start_pyspark.sh
并编写如下内容:#!/bin/bashexport PYSPARK_PYTHON=/path/to/anaconda3/bin/python export PYSPARK_DRIVER_PYTHON=/path/to/anaconda3/bin/jupyter export PYSPARK_DRIVER_PYTHON_OPTS="notebook --NotebookApp.open_browser=False --NotebookApp.ip='*' --NotebookApp.port=8880" pyspark "$@"
将
/path/to ...
分别替换为您安装 python 和 jupyter 二进制文件的路径。通过添加以下行来修改您的
~/.bashrc
文件# Spark
导出路径="/path/to/spark/bin:/path/to/spark/sbin:$PATH"
export SPARK_HOME="/path/to/spark"
导出 SPARK_CONF_DIR="/path/to/spark/conf"
运行
source ~/.bashrc
就可以了。继续尝试
start_pyspark.sh
。您还可以为脚本提供参数,例如
start_pyspark.sh --packages dibbhatt:kafka-spark-consumer:1.0.14
。希望可以帮助你。
关于apache-spark - 如何使用 jupyter notebook 运行 pyspark?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48915274/