python - 如何在spark中设置驱动程序的python版本?

标签 python apache-spark pyspark

我正在使用 Spark 1.4.0-rc2,因此我可以将 python 3 与 Spark 一起使用。如果我将 export PYSPARK_PYTHON=python3 添加到我的 .bashrc 文件中,我可以与 python 3 交互运行 Spark。但是,如果我想在本地模式下运行独立程序,我收到错误:

Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run with different minor versions

如何指定驱动程序的Python版本?设置 export PYSPARK_DRIVER_PYTHON=python3 不起作用。

最佳答案

设置 PYSPARK_PYTHON=python3PYSPARK_DRIVER_PYTHON=python3 对我有用。

我在 .bashrc 中使用导出来完成此操作。最后,这些是我创建的变量:

export SPARK_HOME="$HOME/Downloads/spark-1.4.0-bin-hadoop2.4"
export IPYTHON=1
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=ipython3
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

我还按照本教程使其在 Ipython3 笔记本中工作: http://ramhiser.com/2015/02/01/configuring-ipython-notebook-support-for-pyspark/

关于python - 如何在spark中设置驱动程序的python版本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30518362/

相关文章:

performance - Spark-1.6.0+ : spark. shuffle.memoryFraction 已弃用 - 何时会发生溢出?

apache-spark - 如何使用pyspark删除rdd中的不可打印字符

python - 计算每个键的唯一值的有效方法

python - 如何*更改* struct_time 对象?

python - 复制行以准备 Pandas DataFrame 以进行基于日期的合并

python - GAE支持为Python编写多线程代码吗?

sql - SparkSQL : conditional sum using two columns

python - 文档字符串作为变量还是函数?

apache-spark - 本地或独立模式下的 Spark Executor 日志

azure - 如何访问 Microsoft Azure HDInsight 中的 blob 存储?