java - 在 hadoop 中实现多个映射器和单个 reducer

标签 java hadoop mapreduce

我是 hadoop 的新手。我有多个包含文件的文件夹来处理 hadoop 中的数据。我怀疑在 map-reducer 算法中实现映射器。我可以指定多个映射器来处理多个文件,并使用单个 reducer 将所有输入文件作为一个输出吗?如果可能,请提供实现上述步骤的指南。

最佳答案

如果您有多个文件,请使用 MultipleInputs

addInputPath() 方法可用于:

  1. 添加多个路径和一个通用映射器实现
  2. 使用自定义映射器和输入格式实现添加多个路径。

对于单个 reducer,让每个映射的输出键都相同...比如 1 或“abc”。这样,框架将只创建一个 reducer。

关于java - 在 hadoop 中实现多个映射器和单个 reducer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12195921/

相关文章:

mongodb - MongoDB的mapreduce和Hadoop之间有什么异同?

hadoop - 无法将 partitoner 设置为 JobConf 对象

java - 硬件递归分而治之算法

hadoop - Hive MapReduce 作业拆分文件

hadoop - Apache Hue 或 Apache Ambari - 如何手动安装和配置它们

hadoop - 如何在所有可用节点中运行Hive mapreduce任务?

java - 为什么 IdentityMapper 在 org.apache.hadoop.mapreduce 库中消失了?

java - 将多个 Shiro Realm 集成到 Spring Boot 环境 Java

java - 删除多个正则表达式的交集?

java - 数组只检测输入单词的一部分而不是整个单词