我知道 memcached 的工作原理。 Hadoop 是如何工作的?
最佳答案
Hadoop 由许多组件组成,每个组件都是 Apache Hadoop 项目的子项目。其中两个主要的是 Hadoop Distributed File System (HDFS)和 MapReduce framework .
这个想法是您可以将许多现成的计算机联网以创建一个集群。 HDFS 在集群上运行。当您将数据添加到集群时,它会被分成大块/ block (通常为 64MB)并分布在集群中。 HDFS 允许复制数据以允许从硬件故障中恢复。它几乎预料到硬件故障,因为它旨在与标准硬件一起工作。 HDFS 基于 Google 关于其分布式文件系统 GFS 的论文。
Hadoop MapReduce框架运行在存储在 HDFS 上的数据上。 MapReduce“作业”旨在以高度并行的方式提供基于键/值的处理能力。因为数据分布在集群上,所以可以拆分 MapReduce 作业以对存储在集群上的数据运行许多并行进程。 MapReduce 的 Map 部分仅在它们可以看到的数据上运行,即运行它的特定机器上的数据 block 。 Reduce 汇集了 Maps 的输出。
结果是一个提供高度并行批处理能力的系统。该系统扩展性很好,因为您只需添加更多硬件来增加其存储能力或减少 MapReduce 作业运行所需的时间。
一些链接:
关于linux - 有人可以向初学者提供有关 Hadoop 工作原理的高级、简单的解释吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2497176/