我有一台装有 JupyterHub(Python2、Python3、R 和 Bash 内核)的机器。我有 Spark(scala),当然 PySpark 也在工作。我什至可以通过如下命令在交互式 IPython 笔记本中使用 PySpark:
IPYTHON_OPTS="notebook" $path/to/bin/pyspark
(这会打开一个 Jupyter notebook,在 Python2 中我可以使用 Spark)
但是我无法让 PySpark 在 JupyterHub 中工作。
the spark kernel比我真正需要的更多。
我只需要 JupyterHub 中的 Pyspark。有什么建议吗?
谢谢。
最佳答案
您需要配置pyspark内核。
在我的服务器上,jupyter 内核位于:
/usr/local/share/jupyter/kernels/
您可以通过创建一个新目录来创建一个新内核:
mkdir /usr/local/share/jupyter/kernels/pyspark
然后创建 kernel.json 文件 - 我粘贴我的作为引用:
{
"display_name": "pySpark (Spark 1.6.0)",
"language": "python",
"argv": [
"/usr/local/bin/python2.7",
"-m",
"ipykernel",
"-f",
"{connection_file}"
],
"env": {
"PYSPARK_PYTHON": "/usr/local/bin/python2.7",
"SPARK_HOME": "/usr/lib/spark",
"PYTHONPATH": "/usr/lib/spark/python/lib/py4j-0.9-src.zip:/usr/lib/spark/python/",
"PYTHONSTARTUP": "/usr/lib/spark/python/pyspark/shell.py",
"PYSPARK_SUBMIT_ARGS": "--master yarn-client pyspark-shell"
}
}
调整路径和 python 版本,您的 pyspark 内核就可以运行了。
关于python - 让 Pyspark 在 jupyterhub 中工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31535027/