我在包含多个 AWS 实例的集群上运行 Hadoop MapReduce Java 应用程序。我想知道是否有可能在混洗阶段知道数据集的大小,即总共有多少数据被混洗。另外,是否可以知道每个 reducer 任务处理了多少数据?
最佳答案
您应该能够从 JobTracker Web UI 中找到此信息。
有一个名为“Reduce shuffle bytes”的计数器详细说明了被打乱的总字节数 - 参见 https://issues.apache.org/jira/browse/HADOOP-4845以及原始链接票证以获取更多信息。
对于每个 reducer 计数,深入到已完成的 reducer 任务并单独检查该任务的计数器
关于java - Hadoop MapReduce : size of data processed in shuffle and reduce phase,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19799498/