python - 让 Pyspark 在 jupyterhub 中工作

标签 python apache-spark pyspark jupyter-notebook jupyterhub

我有一台装有 JupyterHub(Python2、Python3、R 和 Bash 内核)的机器。我有 Spark(scala),当然 PySpark 也在工作。我什至可以通过如下命令在交互式 IPython 笔记本中使用 PySpark:

IPYTHON_OPTS="notebook" $path/to/bin/pyspark

(这会打开一个 Jupyter notebook,在 Python2 中我可以使用 Spark)

但是我无法让 PySpark 在 JupyterHub 中工作。

the spark kernel比我真正需要的更多。

我只需要 JupyterHub 中的 Pyspark。有什么建议吗?

谢谢。

最佳答案

您需要配置pyspark内核。

在我的服务器上,jupyter 内核位于:

/usr/local/share/jupyter/kernels/

您可以通过创建一个新目录来创建一个新内核:

mkdir /usr/local/share/jupyter/kernels/pyspark

然后创建 kernel.json 文件 - 我粘贴我的作为引用:

{
 "display_name": "pySpark (Spark 1.6.0)",
 "language": "python",
 "argv": [
  "/usr/local/bin/python2.7",
  "-m",
  "ipykernel",
  "-f",
  "{connection_file}"
 ],
 "env": {
  "PYSPARK_PYTHON": "/usr/local/bin/python2.7",
  "SPARK_HOME": "/usr/lib/spark",
  "PYTHONPATH": "/usr/lib/spark/python/lib/py4j-0.9-src.zip:/usr/lib/spark/python/",
  "PYTHONSTARTUP": "/usr/lib/spark/python/pyspark/shell.py",
  "PYSPARK_SUBMIT_ARGS": "--master yarn-client pyspark-shell"
 }
}

调整路径和 python 版本,您的 pyspark 内核就可以运行了。

关于python - 让 Pyspark 在 jupyterhub 中工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31535027/

相关文章:

python - Spark- 计算一列在另一列之后的百分比

python - 可调用问题,检测到的不仅仅是 __call__

linux - sc 未在 SparkContext 中定义

python - 如何让 pyuic4 自动将标签设置为 "MainWindow"?

scala - 在 Spark 中读取 CSV 文件时出错 - Scala

python - 在 aws emr 上 spark-submit python 应用程序的正确方法是什么?

scala - 内存不足异常或工作节点在 spark scala 作业期间丢失

python - 如何转换 Pyspark 中 Dataframe 中的列表列表,每个列表都列出每个属性的值?

python - 通过队列设置 Celery 时限

Python matplotlib 对数自动缩放