hadoop - 在实际数据传输之前，JobTRacker是否知道在混洗阶段向每个reduce任务传输了多少数据

在Hadoop中，JobTracker是否可以知道每个ReduceTask在实际数据移动之前必须检索多少个数据(在混洗阶段)？我正在尝试收集有关混洗阶段中数据移动的统计信息。

最佳答案

简而言之:它是否知道-也许会使用此信息-不。

根据mapred.reduce.slowstart.completed.maps配置属性的配置，可以在大多数映射任务完成之前启动reduce任务，因此，在调度reduce任务时，调度程序实现不会考虑此信息。

也许实现您自己的调度程序，您可以从一些计数器统计信息中检索此信息，但是您必须深入研究源代码，我不确定您是否可以访问计数器。

作为替代方案，您是否可以不使用map / reduce计数器和/或日志来进行任务尝试(也许任务跟踪器也记录日志)？

关于hadoop - 在实际数据传输之前，JobTRacker是否知道在混洗阶段向每个reduce任务传输了多少数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11319558/

上一篇：hadoop - Reducers 如何在 Hadoop 中收集 map 输出

下一篇：hadoop - whir cdh安装版本控制

相关文章：

javascript - 组合组合 reducer

javascript - Reducer 不导入 Action 类型常量

json - 从包含映射(键值对)的复杂 JSON 创建 Avro 模式

lucene - 使用 Lucene 的 Hive

hadoop - 在cloudera hadoop安装后—未检测到CDH版本。再检查一遍

reactjs - Redux 状态不是第一次更新

sql-server - 使用Map Reduce将大型CSV文件中的数据加载到SQL Server

amazon-ec2 - EC2 上的 Hadoop 有什么建议吗？

hadoop - 标量只能与 PIG 中的投影一起使用

java - 错误 : Java heap space in reducer phase