apache-spark - KryoSerializer 缓冲区溢出

标签 apache-spark

我有一些 Spark 作业在 Spark 1.2 中运行良好,但由于 KryoSerializer 缓冲区溢出而无法在 1.3 中运行。我尝试将 spark.kryoserializer.buffer.max 增加到 20GB,将 spark.kryoserializer.buffer 增加到 2GB。但这并没有帮助。我是否使用了 KryoSerializer 错误,或者它还没有准备好迎接黄金时段?

经过试验和错误,Kryoserializer 缓冲区的上限似乎为 2GB。不确定这是设计使然还是什么?

最佳答案

我的观察是正确的:SPARK-6405 :将最大 Kryo 缓冲区大小限制为 2GB。显然 Databrick 的技术布道者不知道这一点,并告诉我增加缓冲区大小。

关于apache-spark - KryoSerializer 缓冲区溢出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31445065/

相关文章:

apache-spark - google/guava 库出现 Spark 错误 : java. lang.NoSuchMethodError : com. google.common.cache.CacheBuilder.refreshAfterWrite

scala - Spark (Scala) 中的排名指标

python - 如何将 n-grams 组合成 Spark 中的一个词汇表?

python - 如何在新的 Spark session 中再次读取 Spark 表?

java - 是否可以从代码运行 spark yarn cluster?

apache-spark - Spark JDBC fetchsize 选项

apache-spark - 如何从两个列表创建 PySpark 数据框?

apache-spark - 如何在流数据集中加载 tar.gz 文件?

apache-spark - Spark overwrite 删除了 db2 中已有表的权限

apache-spark - 如何使用 Spark 滞后和领先分组和排序