hadoop - 在每个Spark阶段设置内存

标签 hadoop apache-spark yarn

有没有一种方法可以在不同的Spark阶段使用不同的内存量?

我有一个阶段确实需要大量内存,而一堆根本不需要太多内存。现在,我的工作是在工作的整个生命周期中保留大量内存,以满足饥饿的阶段,尽管在很短的时间内只需要那么多的内存。

最佳答案

您可以潜在地启用动态执行程序分配,并在非常占用内存的阶段中增加很高的分区,然后减少之后的分区。不幸的是,YARN不接受容器的动态大小调整,一旦请求它们就是静态的。当涉及内存密集型部分时,动态分配将至少允许您增加大量的工作人员。

关于hadoop - 在每个Spark阶段设置内存,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38363601/

相关文章:

ubuntu - Hadoop 2.5.1 MapReduce卡住

hadoop - 运行Mapreduce问题

maven - oozie3.3.2执行mkdistro.sh命令时生成失败

hadoop - 通过 spark job 创建 hive 表

scala - 如何创建自定义可写变压器?

hadoop - 退出代码和退出状态是否意味着 Spark ?

SQL根据条件跳过最大行

hadoop - Presto查询引发错误-执行SELECT时StageStateMachine NullPointer *

python - Spark python 如何使用特殊标记对 RDD 项进行分组?

python - 无法在 yarn-client 模式下运行 pyspark(pyspark standalone 正在运行)