apache-spark - 如何在EMR群集中的yarn-site.xml中插入配置

标签 apache-spark hadoop emr

我有一个问题:
running beyond physical memory limits. Current usage: 1.5 GB of 1.4 GB physical memory used; 3.4 GB of 6.9 GB virtual memory used. Killing container.
我的群集是:4x c3.4xlarge(datanode)和m3.2xlarge(namenode)，与我的配置相同，我只有1.4GB可用空间。

并解决此问题，我在此站点https://www.knowru.com/blog/first-3-frustrations-you-will-encounter-when-migrating-spark-applications-aws-emr/和其他站点中阅读，关键是更改yarn-site.xml并添加此配置yarn.nodemanager.vmem-check-enabled
但是，当我更改此配置时，保存并重新启动EMR中的resourcemanager，此配置未应用到配置页(EMR名称节点:8088 / conf)中，并且不起作用，但是默认情况下配置创建为EMR接受更改。

我如何在运行群集EMR的情况下更改配置？

我已经看到此设置仅需要在集群创建中进行配置，真的吗？

我该如何欺骗？

最佳答案

我正在接受此错误running beyond physical memory limits. Current usage: 1.5 GB of 1.4 GB physical memory used; 3.4 GB of 6.9 GB virtual memory used. Killing container，因为我的 Spark 驱动程序正在使用默认配置，因此我将此--driver-memory 5g配置放入我的spark-submit jar 中，并解决了我的问题。

就我而言只是这样。

关于apache-spark - 如何在EMR群集中的yarn-site.xml中插入配置，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50475887/

上一篇：docker - 无法推送到 Artifactory Docker Registry

下一篇：docker - 我可以在构建Docker镜像时挂载卷吗？

hadoop - 辅助名称节点是否也更新存储在 NFS 中的元数据？

python - 如何在AWS Elastic MapReduce上使用Python流创建 “side-effect”文件？

java - 使用 Spark 将图像文件保存到 HDFS

apache-spark - Spark 如何决定如何对 RDD 进行分区？

apache-spark - 如何将多个 ML 管道(模型)应用于同一个 Spark 流

hadoop - 在较早的帖子中进行了澄清(处理输入文件中的前N行)

hadoop - 如何使用配置单元 1.2 从 s3 中的 Parquet 文件创建外部表？

hadoop - 在RecordReader初始化之前，Hadoop EMR作业的内存不足

hadoop - 减少大量 GZ 文件的 Hadoop 映射器数量