apache-spark - KryoSerializer 缓冲区溢出

标签 apache-spark

我有一些 Spark 作业在 Spark 1.2 中运行良好，但由于 KryoSerializer 缓冲区溢出而无法在 1.3 中运行。我尝试将 spark.kryoserializer.buffer.max 增加到 20GB，将 spark.kryoserializer.buffer 增加到 2GB。但这并没有帮助。我是否使用了 KryoSerializer 错误，或者它还没有准备好迎接黄金时段？

经过试验和错误，Kryoserializer 缓冲区的上限似乎为 2GB。不确定这是设计使然还是什么？

最佳答案

我的观察是正确的:SPARK-6405 :将最大 Kryo 缓冲区大小限制为 2GB。显然 Databrick 的技术布道者不知道这一点，并告诉我增加缓冲区大小。

关于apache-spark - KryoSerializer 缓冲区溢出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31445065/

上一篇：javascript - Ember.js:对模型进行分组(使用 ArrayProxy)

下一篇：aem - 在 adobe CQ 中将数据从一个组件传递到另一个组件

scala - Spark (Scala) 中的排名指标

python - 如何将 n-grams 组合成 Spark 中的一个词汇表？

python - 如何在新的 Spark session 中再次读取 Spark 表？

java - 是否可以从代码运行 spark yarn cluster？

apache-spark - Spark JDBC fetchsize 选项

apache-spark - 如何从两个列表创建 PySpark 数据框？

apache-spark - 如何在流数据集中加载 tar.gz 文件？

apache-spark - Spark overwrite 删除了 db2 中已有表的权限

apache-spark - 如何使用 Spark 滞后和领先分组和排序