我是 hadoop 的新手。我有多个包含文件的文件夹来处理 hadoop 中的数据。我怀疑在 map-reducer 算法中实现映射器。我可以指定多个映射器来处理多个文件,并使用单个 reducer 将所有输入文件作为一个输出吗?如果可能,请提供实现上述步骤的指南。
最佳答案
如果您有多个文件,请使用 MultipleInputs
addInputPath() 方法可用于:
- 添加多个路径和一个通用映射器实现
- 使用自定义映射器和输入格式实现添加多个路径。
对于单个 reducer,让每个映射的输出键都相同...比如 1 或“abc”。这样,框架将只创建一个 reducer。
关于java - 在 hadoop 中实现多个映射器和单个 reducer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12195921/