hadoop - Amazon Elastic MapReduce 在主节点上完成引导操作，但在核心节点上挂起

标签 hadoop amazon-web-services amazon-ec2 emr

我在 1 个主节点和 25 个核心节点上运行 Amazon Elastic MapReduce (EMR) 作业。引导操作在主节点上完成，但它们卡在核心节点上。构成 map 步骤的约 5000 个(共 5200 个)任务随后被报告为“正在运行”，而其余任务则为“待定”。然而，因为核心节点挂起，实际上没有任何东西在运行；我可以说是因为没有写入中间输出。大约 30 分钟后，所有之前“正在运行”的任务都被标记为“killed_unclean”并转为“待处理”。几分钟后，核心节点上的引导操作完成，但没有任何任务从“待定”状态转变为“运行状态”。

当我使用 2 个核心节点而不是 25 个核心节点运行作业时，不会出现此问题；任务按预期完成。可能出了什么问题，我该如何解决？

最佳答案

托特是对的；我将 mapred.tasktracker.map.tasks.maximum 设置得太高，内存需求太荒谬了。亚马逊的默认值通常适用于此。

关于hadoop - Amazon Elastic MapReduce 在主节点上完成引导操作，但在核心节点上挂起，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22648637/

上一篇：hadoop - 如何读取Hadoop Map中间文件file.out

下一篇：hadoop - 尝试设置伪 dist hadoop 集群时感到沮丧

ruby-on-rails - 橡胶 2(雾)和 key 对错误

scala - Mapreduce 使用 Scala 错误 : java. lang.ClassNotFoundException : scala. Predef$

java - Spark SQLContext 找不到 Hive 表

hadoop - cdh4.3，日志异常，./start-dfs.sh后，datanode和namenode启动失败

mysql - 无法访问我的 EC2 LAMP 实例上的 phpMyAdmin

amazon-web-services - 如何在 Amazon S3 中使用浏览器缓存？

java - 当我的spark作业出现内存不足错误时应该如何调试？

amazon-web-services - 更改已完成的 AWS Spot 请求的中断行为

mysql - AWS RDS MySQL 如何限制对单个 EC2 实例的数据库访问