python - 教程中出现多个 SparkContexts 错误

标签 python apache-spark

我正在尝试运行非常基本的 Spark+Python pyspark 教程——参见 http://spark.apache.org/docs/0.9.0/quick-start.html

当我尝试初始化一个新的 SparkContext 时,

from pyspark import SparkContext
sc = SparkContext("local[4]", "test")

我收到以下错误:

ValueError: Cannot run multiple SparkContexts at once

我想知道我之前运行示例代码的尝试是否将某些未清除的内容加载到内存中。有没有办法列出已经在内存中的当前 SparkContexts 和/或清除它们以便运行示例代码?

最佳答案

这是因为当你在终端中输入“pyspark”时,系统会自动初始化 SparkContext(可能是一个对象?),所以你应该在创建新的之前停止它。

你可以使用

sc.stop()

在创建新的 SparkContext 之前。

另外,你可以使用

sc = SparkContext.getOrCreate()

而不是

sc = SparkContext()

我是 Spark 的新手,我不太了解函数 SparkContext() 的参数的含义,但上面显示的代码都对我有用。

关于python - 教程中出现多个 SparkContexts 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23280629/

相关文章:

hadoop - Spark 1.5.2和Hadoop 2.4(Hive 2)版本兼容性

scala - 无法从HDP 3中具有超过25列的Spark数据框中加载配置单元表

java - 在 Databricks 作业集群上安装 Maven 包

python - 使用 pandas.shift() 根据 scipy.signal.correlate 对齐数据集

Python只读取excel单元格中的公式

Python:返回鼠标点击的坐标信息

java - spark submit 命令的命令行参数中是否有字符限制?

java - 在使用 Mockito 定义 mock 的行为时测试 RDD 的 equals

python - 如何使用for循环使用python脚本将值1-100插入redis?

python - 关闭调试打印