apache-spark - 在 EMR 笔记本 jupyter 中设置 spark.driver.maxResultSize

标签 apache-spark jupyter-notebook amazon-emr spark-notebook

我在 emr 中使用 Jupyter notebook 来处理大量数据。在处理数据时,我看到了这个错误:

An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 108 tasks (1027.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

看来我需要更新 spark 配置中的 maxResultsSize。如何从 jupyter notebook 设置 spark maxResultsSize。

已查看此帖子:Spark 1.4 increase maxResultSize memory

另外,在emr notebook中,spark context已经给出了,有什么办法可以编辑spark context,增加maxResultsSize

任何线索都会非常有帮助。

谢谢

最佳答案

您可以在 spark session 开始时设置 livy 配置 见 https://github.com/cloudera/livy#request-body

将其放在代码的开头

%%configure -f
{"conf":{"spark.driver.maxResultSize":"15G"}}

通过在下一个单元格中打印 session 来检查设置:

print(spark.conf.get('spark.driver.maxResultSize'))

这应该可以解决问题

关于apache-spark - 在 EMR 笔记本 jupyter 中设置 spark.driver.maxResultSize,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61728152/

相关文章:

apache-spark - 如何将Spark流数据存储到Hortonworks中的Hdfs?

amazon-web-services - Hadoop配置属性

python - IPython, "name ' plt' 未定义”

apache-spark - 尝试通过 ssh 连接到 Amazon EMR Spark 集群时出现“操作超时”错误

scala - 如何在 Spark 中处理大引用数据

hadoop - Amazon EMR 应用程序主 Web UI?

hadoop - 如何更改 Spark 中的默认输出分隔符

Scala Spark 模型转换返回全零

visual-studio-code - 在vscode中改变jupyter中输入单元格的颜色

python - 如何在 Spyder 中打开 .ipynb 文件?