java - Hadoop MapReduce : size of data processed in shuffle and reduce phase

我在包含多个 AWS 实例的集群上运行 Hadoop MapReduce Java 应用程序。我想知道是否有可能在混洗阶段知道数据集的大小，即总共有多少数据被混洗。另外，是否可以知道每个 reducer 任务处理了多少数据？

最佳答案

您应该能够从 JobTracker Web UI 中找到此信息。

有一个名为“Reduce shuffle bytes”的计数器详细说明了被打乱的总字节数 - 参见 https://issues.apache.org/jira/browse/HADOOP-4845以及原始链接票证以获取更多信息。

对于每个 reducer 计数，深入到已完成的 reducer 任务并单独检查该任务的计数器

关于java - Hadoop MapReduce : size of data processed in shuffle and reduce phase，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19799498/

上一篇：csv - 如何在 Hive 中将查询输出导出到 csv

下一篇：hadoop - Apache pig -错误 2118 : For input string: "4f8:0:a111::add:9898"

相关文章：

java - 无法安装 JDK - 配置文件格式错误

hadoop - 如果hadoop集群配置为利用kerberos身份验证，那么是否需要配置MapReduce作业来处理它？

java - Java中使用if语句时如何四舍五入小数？

hadoop - 使用 Hadoop 配置 Pig 关系

hadoop - 如何将现有的MapReduce应用程序转换为Crunch？

apache-spark - Spark and Hive in Hadoop 3 : Difference between metastore. catalog.default and spark.sql.catalogImplementation

hadoop - Hadoop 2.6.0的QJM HA设置中的资源管理器配置

mongodb - Mongodb MapReduce 选择最新日期

java - 使用 ZK 在选项卡中加载页面

Java MouseEvent，检查是否按下