linux - 有人可以向初学者提供有关 Hadoop 工作原理的高级、简单的解释吗？

我知道 memcached 的工作原理。 Hadoop 是如何工作的？

最佳答案

Hadoop 由许多组件组成，每个组件都是 Apache Hadoop 项目的子项目。其中两个主要的是 Hadoop Distributed File System (HDFS)和 MapReduce framework .

这个想法是您可以将许多现成的计算机联网以创建一个集群。 HDFS 在集群上运行。当您将数据添加到集群时，它会被分成大块/ block (通常为 64MB)并分布在集群中。 HDFS 允许复制数据以允许从硬件故障中恢复。它几乎预料到硬件故障，因为它旨在与标准硬件一起工作。 HDFS 基于 Google 关于其分布式文件系统 GFS 的论文。

Hadoop MapReduce框架运行在存储在 HDFS 上的数据上。 MapReduce“作业”旨在以高度并行的方式提供基于键/值的处理能力。因为数据分布在集群上，所以可以拆分 MapReduce 作业以对存储在集群上的数据运行许多并行进程。 MapReduce 的 Map 部分仅在它们可以看到的数据上运行，即运行它的特定机器上的数据 block 。 Reduce 汇集了 Maps 的输出。

结果是一个提供高度并行批处理能力的系统。该系统扩展性很好，因为您只需添加更多硬件来增加其存储能力或减少 MapReduce 作业运行所需的时间。

一些链接:

关于linux - 有人可以向初学者提供有关 Hadoop 工作原理的高级、简单的解释吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2497176/

上一篇：database - 如何将 JET 数据库转换为 SQLite？

下一篇：c++ - 连接文件而不复制其内容

相关文章：

linux - crontab 脚本不执行串行命令

python - 使用 python 或 bash 按时间戳将音频文件复制到新文件夹

java - 从 Linux 上的资源加载文本文件时遇到问题

php - 如何通过 CGI 接口(interface)调用我的 C++ 二进制文件？

c - 实时输入/输出(类似聊天)

c++ - 模仿unix shell管道

linux - 提取模式的最快方法

ruby-on-rails - Rails 3 Assets 管道 + Apache + Phusion Passenger

linux - 如何在每个父目录中打印最后一个目录

php - 本地主机 :8080/works well but localhost:8080/phpmyadmin won't open