我已经在我的电脑的多节点环境中安装了 hadoop,如下所示
1: 4个加载ubuntu(14.04)的virtual box实例
2: 1-master node 2-slave node 其余vm实例作为client
注意:所有 4 个虚拟机都在我的 PC 中运行
我能够在上述设置上成功完成 apace-2.6 hadoop 设置。现在我想安装 hive 以便进行一些数据汇总、查询和分析。
但我不确定我必须如何进一步进行。我有以下几个疑问:
问题 1:我是否需要在所有节点(主节点/名称节点和从节点/数据节点)上安装/设置 Apache Hive(0.14)?还是仅在主节点上?
Q2:meta-store应该用什么模式来处理,是本地模式还是远程模式?
问题 3:如果我想将 mysql 用于 hive 元存储,我应该将其安装在主节点/名称节点本身上还是需要为此使用单独的客户端机器?
如果配置 Metastore 需要遵循任何步骤,请有人也可以分享我吗?在多节点/伪分布式环境中。
BR, 桑
最佳答案
您只需安装一次所需的 Hive 服务(HiveServer2、Metastore、WebHCat)。在您的实验室场景中,您可能会将它们放在母版上。然后客户端可以运行 Beeline(HiveServer2 客户端。)
如果将 Metastore 配置为本地,Hive 将使用本地 Derby 数据库。同样,对于您的实验室设置,这可能正是您需要/想要的。
在生产场景中,你会
- 设置专用服务器以支持不应与名称节点进程争用资源的服务
- 并为您的 Metastore 数据库使用远程的专用数据库服务器。
关于hadoop - Apache Hive 安装在伪分布式或多节点集群环境,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34728238/