如何对长期运行的 EMR 集群中丢失的节点进行故障排除和恢复?
该节点几天前停止报告。主机似乎很好,HDFS 也很好。我仅从 Hadoop 应用程序 UI 注意到该问题。
最佳答案
EMR 节点是短暂的,一旦它们被标记为丢失,您就无法恢复它们。您可以首先通过在集群启动期间启用“终止保护”功能来避免这种情况。
关于寻找 LOST 节点的原因,您可以检查集群的 YARN ResourceManager 日志和/或实例 Controller 日志,以找到有关根本原因的更多信息。
关于hadoop - EMR 集群中的 "LOST"节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32385288/