apache-spark - conda 在 Windows 10 上安装 PySpark 后出现问题

标签 apache-spark pyspark conda

大约一年前,在 Udemy 类(class)中,我在我的 Windows 10 笔记本电脑上安装了 PySpark(版本 1.1),并与 Jupyter Notebook 一起使用。一年后,我不得不重新安装 Anaconda 3 等,除了运行 Spark 命令之外,一切似乎都工作正常。我使用以下命令安装了 Pyspark:conda install -c conda-forge pyspark。现在,我尝试使用所有 Udemy 脚本,并得到以下结果:

Exception  Traceback (most recent call last) <ipython-input-5-03dc2d316f89> in <module>()1 sc = SparkSession.builder.appName('Basics').getOrCreate()

~\Anaconda3\lib\site-packages\pyspark\sql\session.py in getOrCreate(self)

167                     for key, value in self._options.items():
168                         sparkConf.set(key, value)
169                     sc = SparkContext.getOrCreate(sparkConf)
170                     # This SparkContext may be an existing one.
171                     for key, value in self._options.items():

我安装了最新的 PySpark 版本 2.2.0,我基本上也提出了同样的问题,但有很多令人困惑的回答。正如我所指出的,一年前我确实在这个 Win 10 机器上运行了旧版本的 PySpark。

有什么想法或提示吗?

最佳答案

来自 PyPi 或 Anaconda 的 Pyspark(即使用 pipconda 安装)包含完整的 Pyspark 功能;它仅适用于现有集群中的 Spark 安装,在这种情况下,人们可能需要 avoid downloading the whole Spark distribution locally 。来自 PyPi docs (此信息也应该在 Anaconda Cloud 中,但不幸的是它不是):

The Python packaging for Spark is not intended to replace all of the other use cases. This Python packaged version of Spark is suitable for interacting with an existing cluster (be it Spark standalone, YARN, or Mesos) - but does not contain the tools required to setup your own standalone Spark cluster. You can download the full version of Spark from the Apache Spark downloads page.

因此,您应该做的是从上面的链接下载完整的 Spark 发行版(Pyspark 是其中的组成部分)。当然,这正是您过去所做的,因为 pip/conda 选项最近才在 Spark 2.1 中可用。

关于apache-spark - conda 在 Windows 10 上安装 PySpark 后出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47084424/

相关文章:

Java Spark : Spark Bug Workaround for Datasets Joining with unknow Join Column Names

scala - 如何在 Spark 中获取 WrappedArray 的第一个值?

python - 如何使用 pyspark 从 Kafka 获取并打印一行?必须使用 writeStream.start() 执行流式源查询

python - 使用 UDF 处理多个列时堆栈溢出

python - 无法将模块从anaconda环境加载到pycharm中

python - 更新时从在 conda 环境中使用 pip 安装的 git repo 获取新提交

java - Parquet .io.ParquetDecodingException : Can not read value at 0 in block -1 in file

python - 正确使用大广播变量的技巧?

mysql - Spark : com. mysql.jdbc.Driver 不允许创建表作为选择

python - window : Anaconda 'python' is not recognized as an internal or external command on CMD (Updated)