hadoop - HIVE表是否在Hadoop集群的所有节点之间重复

标签 hadoop hive hiveql

创建HIVE表时,是否在Hadoop群集的所有节点上都创建了该表?当我将数据加载到表中时,是否会在所有这些节点之间复制数据?

我的猜测是肯定的吗?

最佳答案

Hive只是hdfs之上的元数据层。因此,要回答您的问题,您只需要考虑hdfs中复制的工作方式。

您关于“在每个节点上”的问题不是hdfs复制如何工作的正确思维模型。 hdfs复制对配置单元表一无所知。它只知道数据块。

配置单元表的每个数据块将有K个副本-其中k是为给定配置单元表配置的复制因子。数据块与特定节点的关联由hdfs的本地/机架/集群位置策略驱动。

关于hadoop - HIVE表是否在Hadoop集群的所有节点之间重复,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32573307/

相关文章:

hadoop - 如何在 Cloudera 中安装自定义 Spark 版本

hadoop - PL/SQL 能否可靠地转换为 Pig Lating 或带有 Pig Latin 和 Hive 的 Oozie 管道

java - 使用 java 使用语句类的单个 execute() 方法执行多个配置单元查询

hadoop - Hive - 删除尾随零

java - 在一个输入文件上运行两个映射器,在一个简化器上运行一个reducer,以实现简单的hadoop mapreduce作业

hadoop - 将日期函数设置为变量并在直线和 hql 文件(配置单元)中使用

python - 配置单元 Python UDF 错误

hadoop - 使用 chmod 安装 hadoop

sql - 如何获取表的分区列名称?

hadoop - 如何将数据插入 Hive 中的复杂数据类型 "Struct"