hadoop - 配置 Hadoop、HBase 和 Hive 集群

我是 Hadoop、HBase 和 Hive 的新手。我以伪分布式模式安装了 Hadoop、HBase 和 Hive，一切正常。现在我打算用 Hive、HBase 和 ZooKeeper 建立一个简单的 Hadoop 集群(5 个节点)。我之前阅读了几份文档和说明，但找不到对我的问题的很好解释。我不确定，在哪里运行所有守护进程。这是我的考虑:

Node_1(主节点)

名称节点
工作追踪器
HBase 大师
ZooKeeper(独立节点；由 HBase 管理)

Node_2 (Backup_Master)

次要节点

Node_3(从站 1)

数据节点1
TaskTracker1
区域服务器1

Node_4(从站 2)

数据节点2
任务追踪器2
区域服务器2

Node_5(从站 3)

数据节点3
TaskTracker3
区域服务器3

我知道，在生产中，建议在奇数个节点(单独的集群)上运行 ZooKeeper 集成。但是对于一个简单的集群，是否可以设置一个独立的 ZooKeeper 节点运行在主节点上？

另一个问题是关于 Hive 的:我知道 Hive 是一个 Hadoop 客户端。我还应该在主节点上安装 Hive 吗？有道理吗？

感谢所有提示和评论! 哈坎

注意:我只有5台机器来模拟一个集群。

最佳答案

出于测试目的，我相信您可以在主节点上设置 Zookeeper；我确实将它们全部安装在同一台服务器上。

如果您的集群中有 5 台机器，我不明白您为什么要以伪分布式模式安装 hadoop？安装完全分布式模式可能会更好。

hive的话，好像要用hadoop安装

Hive uses hadoop that means:

you must have hadoop in your path OR export HADOOP_HOME=<hadoop-install-dir>

关于hadoop - 配置 Hadoop、HBase 和 Hive 集群，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13346687/

hadoop - 配置 Hadoop、HBase 和 Hive 集群

上一篇：java - 如何过滤 Hadoop map/reduce 作业输出文件中的键或值？

下一篇：hadoop - Datanode 重新启动 Hadoop fs -put 以获取大量数据(30 GB)