我知道有像 CRUNCH_BYTES_PER_REDUCE_TASK 或 mapred.reduce.tasks 这样的属性来设置 reducer 的数量。
任何人都可以建议为需要更多时间执行的特定 Dofn 配置/覆盖默认 reducer 。
最佳答案
通过使用 ParallelDoOptions
并将其作为第四个参数传递给 parallelDo
,可以为特定的 DoFn 配置 Reducer,如下所示:
ParallelDoOptions opts = ParallelDoOptions.builder().conf("mapred.reduce.tasks", "64").build();
并将其作为第四个参数传递给 parallelDo
。
关于hadoop - 在 Apache 紧缩中为特定的 Dofn 配置 reducer 的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41280899/