scala - 在 Dataproc 上运行 Spark + Scala + Jupyter

标签 scala apache-spark jupyter-notebook google-cloud-dataproc apache-toree

我还没有设法让 Spark、Scala 和 Jupyter 合作。有人有简单的食谱吗?您使用的每个组件的哪个版本?

最佳答案

Apache Toree与 DataProc 的 1.0 镜像兼容,目前包括 Spark 1.6.1。我曾尝试将它与包含 Spark 2.0 预览的预览图像一起使用,但未成功。要在 DataProc master 上安装 Toree,您可以运行

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME

关于scala - 在 Dataproc 上运行 Spark + Scala + Jupyter,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38088138/

相关文章:

scala - 我可以在另一个多项目中有一个 sbt 多项目吗?

mongodb - Spark 数据帧从字符串到 UUID

python - 在 python 中交互式地旋转 3D 图 - matplotlib - Jupyter Notebook

python - 在 Azure 数据工厂中使用没有 DataBricks 的 Jupyter 笔记本?

sql - 将数据帧添加到 Spark 中的列表

scala - 如何使用 Scala 将数据作为元组传递到 Spark 中的 rdd

scala - 任何支持 SBT 的 IDE?

azure - 适用于 SQL Server 和 Azure SQL 的 Apache Spark 连接器

apache-spark - 从 DStream RDD 添加新元素到批处理 RDD

python - Jupyter 笔记本 : 'Bad config encountered during initialization. No such notebook dir : D:/ABC'