java - Hadoop MapReduce : size of data processed in shuffle and reduce phase

标签 java hadoop mapreduce shuffle

我在包含多个 AWS 实例的集群上运行 Hadoop MapReduce Java 应用程序。我想知道是否有可能在混洗阶段知道数据集的大小,即总共有多少数据被混洗。另外,是否可以知道每个 reducer 任务处理了多少数据?

最佳答案

您应该能够从 JobTracker Web UI 中找到此信息。

有一个名为“Reduce shuffle bytes”的计数器详细说明了被打乱的总字节数 - 参见 https://issues.apache.org/jira/browse/HADOOP-4845以及原始链接票证以获取更多信息。

对于每个 reducer 计数,深入到已完成的 reducer 任务并单独检查该任务的计数器

关于java - Hadoop MapReduce : size of data processed in shuffle and reduce phase,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19799498/

相关文章:

java - 无法安装 JDK - 配置文件格式错误

hadoop - 如果hadoop集群配置为利用kerberos身份验证,那么是否需要配置MapReduce作业来处理它?

java - Java中使用if语句时如何四舍五入小数?

hadoop - 使用 Hadoop 配置 Pig 关系

hadoop - 如何将现有的MapReduce应用程序转换为Crunch?

apache-spark - Spark and Hive in Hadoop 3 : Difference between metastore. catalog.default and spark.sql.catalogImplementation

hadoop - Hadoop 2.6.0的QJM HA设置中的资源管理器配置

mongodb - Mongodb MapReduce 选择最新日期

java - 使用 ZK 在选项卡中加载页面

Java MouseEvent,检查是否按下