hadoop - 如何使用 OpenShift 配置 Hadoop 生态系统集群?

标签 hadoop bigdata openshift hortonworks-data-platform

我们正在寻找一种可行的方法来使用 OpenShift(基于 Docker)配置 Hadoop 生态系统集群。我们希望使用 Hadoop 生态系统的服务构建集群,即 HDFS、YARN、Spark、Hive、HBase、ZooKeeper 等。

我的团队一直将 Hortonworks HDP 用于本地硬件,但现在将切换到基于 OpenShift 的基础架构。 Hortonworks Cloudbreak 似乎不适合基于 OpenShift 的基础设施。我找到了 this描述了将 YARN 集成到 OpenShift 中的文章,但似乎没有更多可用信息。

在 OpenShift 上配置 Hadoop 生态系统集群的最简单方法是什么?手动添加所有服务感觉容易出错且难以管理。我偶然发现了这些独立服务的 Docker 镜像,但它无法与您通过 Hortonworks HDP 等平台获得的自动配置相提并论。任何指导表示赞赏。

最佳答案

如果您在 Openshift 中安装 Openstack,Sahara allows provisioning of Openstack Hadoop clusters

或者,Cloudbreak is Hortonwork's tool用于配置基于容器的云部署

两者都提供 Ambari,允许您使用与 HDP 相同的集群管理界面。


FWIW,我个人并没有找到将 Hadoop 放入容器中的原因。您的数据节点被锁定到特定磁盘。在单个主机上运行多个较小的 ResourceManager 没有任何改进。另外,对于 YARN,您将在容器中运行容器。而对于namenode,你必须有一个复制的Fsimage + Editlog,因为容器可以放在任何系统上

关于hadoop - 如何使用 OpenShift 配置 Hadoop 生态系统集群?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49691196/

相关文章:

java - 每行的词袋

hadoop - SQOOP 可以使用自定义 libpath 吗?

hadoop - 从网站检索数据-hadoop

java - 打印在网络论坛上发布大量问题和大量答案的前 10 位用户

kubernetes - 如何更改 OpenShift 上的 kube-apiserver audit-policy.yaml?

java - 无法使用 Openshift 客户端工具

hadoop - 配置单元总是减少到 0%

hadoop - HiveServer2-使用 “hive”用户执行所有查询-错误?

java - 闲置一分钟后运行第二个查询时,hiveserver2 org.apache.thrift.transport.TTransportException错误

security - 在 Openshift 上以非 root 用户身份运行 nginx 并监听端口 80