hadoop - Hadoop的哪种分布更好？

我正在处理海量数据，我的输入数据约为100 GB。我想选择一个hadoop发行版，但我不知道选择mapr集群还是cloudera集群。我想使用免费版本(使用hadoop 0.20的mapr M3和cloudera CDH4)。
他们哪个更好？我使用哪种配置才能发挥最佳效果？
谢谢。

最佳答案

实际上，这个问题的答案是这个世界上最常见的答案，取决于。这完全取决于您和您的要求。人们可能会发现一种特定的口味更适合他/她的需求，而您可能会发现相同的口味不太有用。而且，这全都是个人选择，就像我个人喜欢Apache的Hadoop。一切都很好。正是这种适合您的需求。

其中哪个更好？ 是一个有争议的主题。诸如此类的问题通常以激烈的争论而告终。例如，请参见此question。因此，我不会列出任何一个相对于另一个的优点。但是Hadoop的这些不同类型之间存在某些差异，这些差异可能会在您的思考过程中为您提供帮助。

CDH(以及Apache Hadoop)和MapR之间的主要区别是MapR使用其自己的专有文件系统 MapRFS 而不是HDFS。 M3版是免费的，可无限量使用。支持以社区为基础，并通过MapR的论坛提供。 CDH是100％开放源代码，您可以免费使用Cloudera Manager的“标准”版本。还有Apache，那就是Apache :)。做你想做的事。

MapR甚至最近与Ubuntu操作系统背后的组织 Canonical 合作，以通过其存储库使Hadoop成为Ubuntu的集成部分。该合作伙伴关系宣布，将打包MapR的Apache Hadoop M3版，并将其作为Ubuntu操作系统的集成部分提供下载(如果需要更多信息，请参阅this)。源代码可在Github上获得。 CDH代码库与Apache的代码库相同，带有一些自己的补丁。

但是免费版缺少一些好的功能，例如 JobTracker HA，NameNode HA，镜像，Snapshot 等。基于Hadoop-2.x的CDH4为您提供了HA功能。凭借其设计，MapR不像CDH3(或Hadoop-1.x)那样具有任何SPOF。 MapRFS将数据按卷存储，从概念上讲，这些数据存储在跨集群分布的一组容器中。每个容器都包含自己的元数据，从而消除了中央NameNode单点故障。该API仍与Apache Hadoop兼容。 MapR设置要求不同于Apache / CDH。例如，类似于MapR，要求原始卷可用于安装。一旦有了正确的硬件和操作系统先决条件，设置时间和评估时间应与Apache / CDH处于相同的数量级。

恕我直言，M3不会给您带来超过Apache / CDH的巨大优势，因为M3免费版中没有一些吸引人的MapR功能，例如 NFS-HA，Snapshots 等。

作为第一家Cloudera，在经验和稳固的客户基础方面肯定具有额外优势。但是，在对MapReduce和HDFS组件进行重大更改以提高性能方面，MapR更具创新性。

待会儿我会写更多的信息，因为我正在通话中，您正在等待答案;)

关于hadoop - Hadoop的哪种分布更好？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17957924/

hadoop - Hadoop的哪种分布更好？

上一篇：mongodb - 什么是Nosql数据库以及它们与R数据库有何区别

下一篇：java - Hadoop启动修改过的jar