python - 如何将 Databricks Spark-csv 包添加到 IBM Bluemix 上的 Python Jupyter 笔记本

标签 python apache-spark ibm-cloud pyspark

我知道我应该在启动 pyspark 时将其添加为包要求:

$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.11:1.4.0

但是在 Bluemix 中,spark 已经在运行并且已经定义了 Spark 上下文。我怎样才能添加这个包?

顺便说一句,我可以在 Scala 中执行此操作吗?

最佳答案

目前在 Bluemix 上,在 Python 笔记本中使用 PySpark,无法将 spark-csv 添加到环境中。

但是,您可以使用以下命令将其添加到 Scala 笔记本中:

%AddDeps com.databricks spark-csv_2.10 1.3.0 --transitive

当然,您可以选择其他版本的软件包。

对于 Scala 笔记本和相应的 Spark 内核,请查看以下文档: https://github.com/ibm-et/spark-kernel/wiki/List-of-Current-Magics-for-the-Spark-Kernel

关于python - 如何将 Databricks Spark-csv 包添加到 IBM Bluemix 上的 Python Jupyter 笔记本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36926906/

相关文章:

Python:如何根据位置输出FASTA头或染色体索引图?

python - 使用 MouseMoveEvent 移动无框 QDialog

datetime - Spark的int96时间类型

python - 使用 Pyspark Kernel 读取 Jupyter Notebook 中的 Spark Avro 文件

go - 在 bluemix 上使用社区 golang buildpack 时出现编译错误

ibm-cloud - 减少 Bluemix 应用程序实例时的行为

python - 不在 ListView 中时,django rest framework 添加字段

Python 和 sqlite3.ProgrammingError : Recursive use of cursors not allowed

scala - Spark Latent Dirichlet Allocation模型主题矩阵太小

java - 在 Node-RED/Watson IoT 中,我的 Java 设备客户端不断在连接和断开连接之间切换