apache-spark - 为 Jupyter 创建 pyspark 内核

标签 apache-spark ipython pyspark jupyter

我正在考虑将 Apache Toree 用作 Jupyter 的 Pyspark 内核

https://github.com/apache/incubator-toree

但是它使用的是旧版本的 Spark(1.5.1 与当前的 1.6.0)。我在这里尝试使用这种方法 http://arnesund.com/2015/09/21/spark-cluster-on-openstack-with-multi-user-jupyter-notebook/通过创建 kernel.js

{
 "display_name": "PySpark",
 "language": "python",
 "argv": [
  "/usr/bin/python",
  "-m",
  "ipykernel",
  "-f",
  "{connection_file}"
 ],
 "env": {
  "SPARK_HOME": "/usr/local/Cellar/apache-spark/1.6.0/libexec",
  "PYTHONPATH": "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/:/usr/local/Cellar/apache-spark/1.6.0/libexec/python/lib/py4j-0.9-src.zip",
  "PYTHONSTARTUP": "/usr/local/Cellar/apache-spark/1.6.0/libexec/python/pyspark/shell.py",
  "PYSPARK_SUBMIT_ARGS": "--master local[*] pyspark-shell"
 }
}

但是,我遇到了一些问题:
  • 没有/jupyter/kernels我的 Mac 中的路径。所以我最终创建了这条路径 ~/.jupyter/kernels/pyspark .我不确定这是否是正确的路径。
  • 即使拥有所有正确的路径,我仍然看不到 PySpark在 Jupyter 中显示为内核。

  • 我错过了什么?

    最佳答案

    Jupyter 内核应该放在 $JUPYTER_DATA_DIR 中。在 OSX 上,这是 ~/Library/Jupyter。见:http://jupyter.readthedocs.org/en/latest/system.html

    关于apache-spark - 为 Jupyter 创建 pyspark 内核,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34998433/

    相关文章:

    apache-spark - PySpark 用最频繁的项目替换不太频繁的项目

    apache-spark - k8s上的Spark-emptyDir未安装到目录

    Java - 必须在您的配置中设置主 URL

    apache-spark - 如何在时间戳值上使用lag和rangeBetween函数?

    apache-spark - 使用 Spark-submit 时禁用 Ivy Logging

    python - 嵌入 ipython qtconsole 和传递对象

    ipython - ipython 笔记本中几何代数的良好输出

    ipython - 删除 nbconvert --to html 'in' 和 'out' 基于单元元数据的提示

    apache-spark - 给定惰性执行风格,如何在 Spark 中计时转换?

    python - 将 DataFrame show() 的结果保存到 pyspark 中的字符串