我已经在我的电脑的多节点环境中安装了 hadoop，如下所示

1: 4个加载ubuntu(14.04)的virtual box实例

2: 1-master node 2-slave node 其余vm实例作为client

注意:所有 4 个虚拟机都在我的 PC 中运行

我能够在上述设置上成功完成 apace-2.6 hadoop 设置。现在我想安装 hive 以便进行一些数据汇总、查询和分析。

但我不确定我必须如何进一步进行。我有以下几个疑问:

问题 1:我是否需要在所有节点(主节点/名称节点和从节点/数据节点)上安装/设置 Apache Hive(0.14)？还是仅在主节点上？

Q2:meta-store应该用什么模式来处理，是本地模式还是远程模式？

问题 3:如果我想将 mysql 用于 hive 元存储，我应该将其安装在主节点/名称节点本身上还是需要为此使用单独的客户端机器？

如果配置 Metastore 需要遵循任何步骤，请有人也可以分享我吗？在多节点/伪分布式环境中。

BR, 桑

最佳答案

您只需安装一次所需的 Hive 服务(HiveServer2、Metastore、WebHCat)。在您的实验室场景中，您可能会将它们放在母版上。然后客户端可以运行 Beeline(HiveServer2 客户端。)

如果将 Metastore 配置为本地，Hive 将使用本地 Derby 数据库。同样，对于您的实验室设置，这可能正是您需要/想要的。

在生产场景中，你会

关于hadoop - Apache Hive 安装在伪分布式或多节点集群环境，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34728238/