hadoop - 如何在本地文件系统中的文件上运行map/reduce？

如何在本地文件系统中可用的文件上运行Java映射/归约作业？例如，我有一个3节点群集，所有节点在其本地文件系统中都有一个日志文件，例如/home/log/log.txt。

如何在这些文件上运行作业？运行作业之前，是否需要将它们合并并传输到HDFS？

谢谢。

最佳答案

您可以将所有单个文件上传到一个文件夹下，并提供该文件夹路径作为MapReduce程序的输入路径。您的Map Reduce在该文件夹中的所有文件上运行。

关于hadoop - 如何在本地文件系统中的文件上运行map/reduce？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24482855/

相关文章：

nosql - 从 HBASE 数据返回聚合