python - 将 `SPARK_HOME` 设置为什么?

标签 python apache-spark pythonpath pyspark apache-zeppelin

安装了 apache-maven-3.3.3,scala 2.11.6,然后运行:

$ git clone git://github.com/apache/spark.git -b branch-1.4
$ cd spark
$ build/mvn -DskipTests clean package

最后:

$ git clone https://github.com/apache/incubator-zeppelin
$ cd incubator-zeppelin/
$ mvn install -DskipTests

然后运行服务器:

$ bin/zeppelin-daemon.sh start

运行一个以 %pyspark 开头的简单笔记本时,我收到一个关于找不到 py4j 的错误。刚刚pip install py4j (ref)。

现在我收到此错误:

pyspark is not responding Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark.py", line 22, in <module>
    from pyspark.conf import SparkConf
ImportError: No module named pyspark.conf

我尝试将我的 SPARK_HOME 设置为:/spark/python:/spark/python/lib。没有变化。

最佳答案

需要两个环境变量:

SPARK_HOME=/spark
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-VERSION-src.zip:$PYTHONPATH

关于python - 将 `SPARK_HOME` 设置为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30824818/

相关文章:

python - 在 Matplotlib 中显示绘图之前获取空刻度标签

apache-spark - "INSERT INTO ..."使用 SparkSQL HiveContext

apache-spark - Spark + Parquet + Snappy : Overall compression ratio loses after spark shuffles data

python - 我应该将我的 Python 项目添加到 site-packages 目录,还是将我的项目附加到 PYTHONPATH?

PYTHONPATH 不适用于多个路径

python - dataframe to dict 使得一列是键,另一列是值

python - 使用 numpy 样式格式的 Sphinx 忽略的部分

scala - Hadoop-按行数拆分文件

Python 找不到设置了 PYTHONPATH 的模块

python Django : Minimal Django + Cassandra local application