apache-spark - 在 toree 中安装 spark 包

标签 apache-spark jupyter-notebook apache-toree

我通常用以下命令启动我的 spark-shell:

./bin/spark-shell --packages com.databricks:spark-csv_2.10:1.2.0,graphframes:graphframes:0.1.0-spark1.6,com.databricks:spark-avro_2.10:2.0.1

我现在正在尝试使用 Apache Toree,知道如何在笔记本上加载这些库吗?

我尝试了以下方法:
jupyter toree install --user --spark_home=/home/eron/spark-1.6.1/ --spark_opts="--packages com.databricks:spark-csv_2.10:1.2.0,graphframes:graphframes:0.1.0-spark1.6,com.databricks:spark-avro_2.10:2.0.1"

但这似乎不起作用

最佳答案

您可以在 SPARK_OPTS 环境变量中指定包:

export SPARK_OPTS='--packages com.databricks:spark-csv_2.10:1.4.0'

修改 spark-defaults.conf 也有效:
echo spark.jars.packages=com.databricks:spark-csv_2.10:1.4.0 | sudo tee -a $SPARK_HOME/conf/spark-defaults.conf

关于apache-spark - 在 toree 中安装 spark 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37324574/

相关文章:

python - 从 jupyter 服务器下载数据

python - Jupyter 笔记本信号仅在主线程中有效

python - 将带有 html 图的 Ipython Notebook 保存为 pdf?

windows - 在 Windows 和 Apache Toree Kernel 上使用 Jupyter 以实现 Spark 兼容性

apache-spark - Scala 的 Apache Toree 语法高亮

java - Spark中如何使用foreachPartition?

apache-spark - Spark Streaming 调整每批大小的记录数不起作用?

python - 木星 pyspark : no module named pyspark

scala - 作为执行程序和线程数量的函数,spark中的分区数量是多少?

hadoop - 使用Hadoop工具集匹配地理位置