我是 Hadoop、HBase 和 Hive 的新手。我以伪分布式模式安装了 Hadoop、HBase 和 Hive,一切正常。 现在我打算用 Hive、HBase 和 ZooKeeper 建立一个简单的 Hadoop 集群(5 个节点)。我之前阅读了几份文档和说明,但找不到对我的问题的很好解释。我不确定,在哪里运行所有守护进程。这是我的考虑:
Node_1(主节点)
名称节点
工作追踪器
HBase 大师
ZooKeeper(独立节点;由 HBase 管理)
Node_2 (Backup_Master)
次要节点
Node_3(从站 1)
数据节点1
TaskTracker1
区域服务器1
Node_4(从站 2)
数据节点2
任务追踪器2
区域服务器2
Node_5(从站 3)
- 数据节点3
- TaskTracker3
- 区域服务器3
我知道,在生产中,建议在奇数个节点(单独的集群)上运行 ZooKeeper 集成。但是对于一个简单的集群,是否可以设置一个独立的 ZooKeeper 节点运行在主节点上?
另一个问题是关于 Hive 的:我知道 Hive 是一个 Hadoop 客户端。我还应该在主节点上安装 Hive 吗?有道理吗?
感谢所有提示和评论! 哈坎
注意:我只有5台机器来模拟一个集群。
最佳答案
出于测试目的,我相信您可以在主节点上设置 Zookeeper;我确实将它们全部安装在同一台服务器上。
如果您的集群中有 5 台机器,我不明白您为什么要以伪分布式模式安装 hadoop?安装完全分布式模式可能会更好。
hive的话,好像要用hadoop安装
Hive uses hadoop that means:
you must have hadoop in your path OR export HADOOP_HOME=<hadoop-install-dir>
关于hadoop - 配置 Hadoop、HBase 和 Hive 集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13346687/