hadoop - 在 Apache 紧缩中为特定的 Dofn 配置 reducer 的数量

我知道有像 CRUNCH_BYTES_PER_REDUCE_TASK 或 mapred.reduce.tasks 这样的属性来设置 reducer 的数量。

任何人都可以建议为需要更多时间执行的特定 Dofn 配置/覆盖默认 reducer 。

最佳答案

通过使用 ParallelDoOptions 并将其作为第四个参数传递给 parallelDo ，可以为特定的 DoFn 配置 Reducer，如下所示:

ParallelDoOptions opts = ParallelDoOptions.builder().conf("mapred.reduce.tasks", "64").build();

并将其作为第四个参数传递给 parallelDo。

关于hadoop - 在 Apache 紧缩中为特定的 Dofn 配置 reducer 的数量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41280899/