我想使用 Hadoop MapReduce 提高数据处理性能。那么,我需要将它与 Hadoop DFS 一起使用吗?或者 MapReduce 可以与其他类型的分布式数据一起使用?请给我指路....
最佳答案
Hadoop 是一个框架,包括用于计算的 Map Reduce 编程模型和用于存储的 HDFS。
HDFS 代表 hadoop 分布式文件系统,其灵感来自 Google 文件系统。整个 Hadoop 项目的灵感来自于 Google 发表的研究论文。
research.google.com/archive/mapreduce-osdi04.pdf
http://research.google.com/archive/mapreduce.html
使用 Map Reduce 编程模型数据将在集群中的不同节点中以并行方式计算,这将减少处理时间。
您需要使用 HDFS 或 HBASE 将数据存储在集群中以获得高性能。如果你喜欢选择普通的文件系统,那就没有太大区别了。一旦数据进入分布式系统,它会自动划分到不同的 block 中,并默认复制 3 次以避免容错。所有这些对于普通文件系统都是不可能的
希望对您有所帮助!
关于java - MapReduce 是否需要与 HDFS 一起使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28042792/