hadoop - 在 Apache 紧缩中为特定的 Dofn 配置 reducer 的数量

标签 hadoop mapreduce apache-crunch

我知道有像 CRUNCH_BYTES_PER_REDUCE_TASK 或 mapred.reduce.tasks 这样的属性来设置 reducer 的数量。

任何人都可以建议为需要更多时间执行的特定 Dofn 配置/覆盖默认 reducer 。

最佳答案

通过使用 ParallelDoOptions 并将其作为第四个参数传递给 parallelDo ,可以为特定的 DoFn 配置 Reducer,如下所示:

ParallelDoOptions opts = ParallelDoOptions.builder().conf("mapred.reduce.tasks", "64").build();

并将其作为第四个参数传递给 parallelDo

关于hadoop - 在 Apache 紧缩中为特定的 Dofn 配置 reducer 的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41280899/

相关文章:

hadoop - maven-shade-plugin 与 maven-assembly-plugin

java - 如何对 hadoop 中的所有键/值对进行一般化简

apache-crunch - 在 Apache Crunch 中是否有将 PCollection 转换为 PTable 的通用方法?

hadoop - 如何在 Apache Oozie 中动态定义工作流程?

hadoop - 哪些 HDFS 操作是原子的?

mongodb - Spark rdd.count() 产生不一致的结果

java - hadoop NaturalKeyGroupingComparator - Reducer 中发生了什么?

java - MapReduce到Spark

Hadoop 作业 : Error injecting constructor, JAXBException

apache-pig - 将 Avro 转换为 Parquet 格式