hadoop - 如何在本地文件系统中的文件上运行map/reduce?

标签 hadoop mapreduce

如何在本地文件系统中可用的文件上运行Java映射/归约作业?例如,我有一个3节点群集,所有节点在其本地文件系统中都有一个日志文件,例如/home/log/log.txt。

如何在这些文件上运行作业?运行作业之前,是否需要将它们合并并传输到HDFS?

谢谢。

最佳答案

您可以将所有单个文件上传到一个文件夹下,并提供该文件夹路径作为MapReduce程序的输入路径。您的Map Reduce在该文件夹中的所有文件上运行。

关于hadoop - 如何在本地文件系统中的文件上运行map/reduce?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24482855/

相关文章:

nosql - 从 HBASE 数据返回聚合

java - 刚刚将我的hadoop集群升级到2.4.1,并且一切正常

java - 获取权限被拒绝(公钥)。在AWS上启动hadoop集群时

scala - 'new HiveContext' 需要 X11 显示? com.trend.iwss.jscan?

Hadoop 流媒体 API : how to remove unwanted delimiters

hadoop - amazon s3n 与 hadoop mapreduce 的集成不起作用

java - 查找 hadoop-core-2.7.2.jar 路径

java - 将 IntWritable 转换为 int

java - MapReduce HBase 空指针异常

java - Job(Configuration conf) 执行的是浅拷贝还是深拷贝?