python - 如何在spark中设置驱动程序的python版本？

标签 python apache-spark pyspark

我正在使用 Spark 1.4.0-rc2，因此我可以将 python 3 与 Spark 一起使用。如果我将 export PYSPARK_PYTHON=python3 添加到我的 .bashrc 文件中，我可以与 python 3 交互运行 Spark。但是，如果我想在本地模式下运行独立程序，我收到错误:

Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run with different minor versions

如何指定驱动程序的Python版本？设置 export PYSPARK_DRIVER_PYTHON=python3 不起作用。

最佳答案

设置 PYSPARK_PYTHON=python3 和 PYSPARK_DRIVER_PYTHON=python3 对我有用。

我在 .bashrc 中使用导出来完成此操作。最后，这些是我创建的变量:

export SPARK_HOME="$HOME/Downloads/spark-1.4.0-bin-hadoop2.4"
export IPYTHON=1
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=ipython3
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

我还按照本教程使其在 Ipython3 笔记本中工作: http://ramhiser.com/2015/02/01/configuring-ipython-notebook-support-for-pyspark/

关于python - 如何在spark中设置驱动程序的python版本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30518362/

上一篇：asp.net-mvc - .net MVC Html.CheckBoxFor 的正确使用

下一篇：cordova - 在 NPM 中获取包的早期版本

apache-spark - 如何使用pyspark删除rdd中的不可打印字符

python - 计算每个键的唯一值的有效方法

python - 如何*更改* struct_time 对象？

python - 复制行以准备 Pandas DataFrame 以进行基于日期的合并

python - GAE支持为Python编写多线程代码吗？

sql - SparkSQL : conditional sum using two columns

python - 文档字符串作为变量还是函数？

apache-spark - 本地或独立模式下的 Spark Executor 日志

azure - 如何访问 Microsoft Azure HDInsight 中的 blob 存储？