hadoop - Hadoop的哪种分布更好?

标签 hadoop cloudera mapr

我正在处理海量数据,我的输入数据约为100 GB。我想选择一个hadoop发行版,但我不知道选择mapr集群还是cloudera集群。我想使用免费版本(使用hadoop 0.20的mapr M3和cloudera CDH4)。
他们哪个更好?我使用哪种配置才能发挥最佳效果?
谢谢。

最佳答案

实际上,这个问题的答案是这个世界上最常见的答案,取决于。这完全取决于您和您的要求。人们可能会发现一种特定的口味更适合他/她的需求,而您可能会发现相同的口味不太有用。而且,这全都是个人选择,就像我个人喜欢Apache的Hadoop。一切都很好。正是这种适合您的需求。

其中哪个更好? 是一个有争议的主题。诸如此类的问题通常以激烈的争论而告终。例如,请参见此question。因此,我不会列出任何一个相对于另一个的优点。但是Hadoop的这些不同类型之间存在某些差异,这些差异可能会在您的思考过程中为您提供帮助。

CDH(以及Apache Hadoop)和MapR之间的主要区别是MapR使用其自己的专有文件系统 MapRFS 而不是HDFS。 M3版是免费的,可无限量使用。支持以社区为基础,并通过MapR的论坛提供。 CDH是100%开放源代码,您可以免费使用Cloudera Manager的“标准”版本。还有Apache,那就是Apache :)。做你想做的事。

MapR甚至最近与Ubuntu操作系统背后的组织 Canonical 合作,以通过其存储库使Hadoop成为Ubuntu的集成部分。该合作伙伴关系宣布,将打包MapR的Apache Hadoop M3版,并将其作为Ubuntu操作系统的集成部分提供下载(如果需要更多信息,请参阅this)。源代码可在Github上获得。 CDH代码库与Apache的代码库相同,带有一些自己的补丁。

但是免费版缺少一些好的功能,例如 JobTracker HA,NameNode HA,镜像,Snapshot 等。基于Hadoop-2.x的CDH4为您提供了HA功能。凭借其设计,MapR不像CDH3(或Hadoop-1.x)那样具有任何SPOF。 MapRFS将数据按卷存储,从概念上讲,这些数据存储在跨集群分布的一组容器中。每个容器都包含自己的元数据,从而消除了中央NameNode单点故障。该API仍与Apache Hadoop兼容。 MapR设置要求不同于Apache / CDH。例如,类似于MapR,要求原始卷可用于安装。一旦有了正确的硬件和操作系统先决条件,设置时间和评估时间应与Apache / CDH处于相同的数量级。

恕我直言,M3不会给您带来超过Apache / CDH的巨大优势,因为M3免费版中没有一些吸引人的MapR功能,例如 NFS-HA,Snapshots 等。

作为第一家Cloudera,在经验和稳固的客户基础方面肯定具有额外优势。但是,在对MapReduce和HDFS组件进行重大更改以提高性能方面,MapR更具创新性。

待会儿我会写更多的信息,因为我正在通话中,您正在等待答案;)

关于hadoop - Hadoop的哪种分布更好?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17957924/

相关文章:

scala - 在 spark scala 上使用映射函数转换元组的问题

hadoop - Apache Pig 存储分隔符

hadoop - 为 Hadoop 实践创建或获取环境

ruby - 如何使用 Ruby 在 MapR HDFS 中保存文件

hadoop - Oozie + yarn : getting connection failure exception

hadoop - 使用连接时Hive中的行异常

java - 使用 Hadoop 分布式缓存的问题

hadoop - MapR快速安装程序引发错误

sql - 配置单元如何增加特定于条件的值?

Hadoop 名称节点和日志节点自动占用磁盘空间