java - 在 hadoop 中实现多个映射器和单个 reducer

标签 java hadoop mapreduce

我是 hadoop 的新手。我有多个包含文件的文件夹来处理 hadoop 中的数据。我怀疑在 map-reducer 算法中实现映射器。我可以指定多个映射器来处理多个文件，并使用单个 reducer 将所有输入文件作为一个输出吗？如果可能，请提供实现上述步骤的指南。

最佳答案

如果您有多个文件，请使用 MultipleInputs

addInputPath() 方法可用于:

添加多个路径和一个通用映射器实现
使用自定义映射器和输入格式实现添加多个路径。

对于单个 reducer，让每个映射的输出键都相同...比如 1 或“abc”。这样，框架将只创建一个 reducer。

关于java - 在 hadoop 中实现多个映射器和单个 reducer，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12195921/

上一篇：java - 使用 Hadoop Streaming 时通过脚本运行 Java 应用程序 : java. lang.NoClassDefFoundError

下一篇：hadoop - 一种为单节点 Hadoop 禁用 SSH 的方法？

相关文章：

mongodb - MongoDB的mapreduce和Hadoop之间有什么异同？

hadoop - 无法将 partitoner 设置为 JobConf 对象

java - 硬件递归分而治之算法

hadoop - Hive MapReduce 作业拆分文件

hadoop - Apache Hue 或 Apache Ambari - 如何手动安装和配置它们

hadoop - 如何在所有可用节点中运行Hive mapreduce任务？

java - 为什么 IdentityMapper 在 org.apache.hadoop.mapreduce 库中消失了？

java - 将多个 Shiro Realm 集成到 Spring Boot 环境 Java

java - 删除多个正则表达式的交集？

java - 数组只检测输入单词的一部分而不是整个单词

©2024 IT工具网联系我们