hadoop - 配置 Hadoop、HBase 和 Hive 集群

标签 hadoop hbase hive apache-zookeeper

我是 Hadoop、HBase 和 Hive 的新手。我以伪分布式模式安装了 Hadoop、HBase 和 Hive,一切正常。 现在我打算用 Hive、HBase 和 ZooKeeper 建立一个简单的 Hadoop 集群(5 个节点)。我之前阅读了几份文档和说明,但找不到对我的问题的很好解释。我不确定,在哪里运行所有守护进程。这是我的考虑:

Node_1(主节点)

  • 名称节点

  • 工作追踪器

  • HBase 大师

  • ZooKeeper(独立节点;由 HBase 管理)


Node_2 (Backup_Master)

  • 次要节点


Node_3(从站 1)

  • 数据节点1

  • TaskTracker1

  • 区域服务器1


Node_4(从站 2)

  • 数据节点2

  • 任务追踪器2

  • 区域服务器2


Node_5(从站 3)

  • 数据节点3
  • TaskTracker3
  • 区域服务器3

我知道,在生产中,建议在奇数个节点(单独的集群)上运行 ZooKeeper 集成。但是对于一个简单的集群,是否可以设置一个独立的 ZooKeeper 节点运行在主节点上?

另一个问题是关于 Hive 的:我知道 Hive 是一个 Hadoop 客户端。我还应该在主节点上安装 Hive 吗?有道理吗?

感谢所有提示和评论! 哈坎

注意:我只有5台机器来模拟一个集群。

最佳答案

出于测试目的,我相信您可以在主节点上设置 Zookeeper;我确实将它们全部安装在同一台服务器上。

如果您的集群中有 5 台机器,我不明白您为什么要以伪分布式模式安装 hadoop?安装完全分布式模式可能会更好。

hive的话,好像要用hadoop安装

Hive uses hadoop that means:

you must have hadoop in your path OR export HADOOP_HOME=<hadoop-install-dir>

关于hadoop - 配置 Hadoop、HBase 和 Hive 集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13346687/

相关文章:

java - 如何在 hadoop 中编写和执行 hello world 程序?

java - HBase FuzzyRowFilter 不返回任何结果

postgresql - 配置单元 + 与 PostgreSQL 数据库的连接过多

hadoop - 无法杀死 Oozie 工作

hadoop - 可以在hadoop YARN中运行的应用程序

hadoop - 通过 hive 将数据插入 hbase 时,reducer 卡在 99%

hadoop - 如何获取 hive 中每个组的前n个计数

hadoop - HBase HDFS 动物园管理员

jruby - HBase Shell扫描字节到字符串的转换

apache-spark - 如何将 parquet 文件的 int64 数据类型列转换为 SparkSQL 数据帧中的时间戳?