apache-spark - 如何在EMR群集中的yarn-site.xml中插入配置

标签 apache-spark hadoop emr

我有一个问题:
running beyond physical memory limits. Current usage: 1.5 GB of 1.4 GB physical memory used; 3.4 GB of 6.9 GB virtual memory used. Killing container.
我的群集是:4x c3.4xlarge(datanode)和m3.2xlarge(namenode),与我的配置相同,我只有1.4GB可用空间。

并解决此问题,我在此站点https://www.knowru.com/blog/first-3-frustrations-you-will-encounter-when-migrating-spark-applications-aws-emr/和其他站点中阅读,关键是更改yarn-site.xml并添加此配置yarn.nodemanager.vmem-check-enabled
但是,当我更改此配置时,保存并重新启动EMR中的resourcemanager,此配置未应用到配置页(EMR名称节点:8088 / conf)中,并且不起作用,但是默认情况下配置创建为EMR接受更改。

我如何在运行群集EMR的情况下更改配置?

我已经看到此设置仅需要在集群创建中进行配置,真的吗?

我该如何欺骗?

最佳答案

我正在接受此错误running beyond physical memory limits. Current usage: 1.5 GB of 1.4 GB physical memory used; 3.4 GB of 6.9 GB virtual memory used. Killing container,因为我的 Spark 驱动程序正在使用默认配置,因此我将此--driver-memory 5g配置放入我的spark-submit jar 中,并解决了我的问题。

就我而言只是这样。

关于apache-spark - 如何在EMR群集中的yarn-site.xml中插入配置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50475887/

相关文章:

scala - Spark - StorageLevel(DISK_ONLY 与 MEMORY_AND_DISK)和内存不足 Java 堆空间

hadoop - 辅助名称节点是否也更新存储在 NFS 中的元数据?

python - 如何在AWS Elastic MapReduce上使用Python流创建 “side-effect”文件?

java - 使用 Spark 将图像文件保存到 HDFS

apache-spark - Spark 如何决定如何对 RDD 进行分区?

apache-spark - 如何将多个 ML 管道(模型)应用于同一个 Spark 流

hadoop - 在较早的帖子中进行了澄清(处理输入文件中的前N行)

hadoop - 如何使用配置单元 1.2 从 s3 中的 Parquet 文件创建外部表?

hadoop - 在RecordReader初始化之前,Hadoop EMR作业的内存不足

hadoop - 减少大量 GZ 文件的 Hadoop 映射器数量