hadoop - hive 中的分区和分桶有什么区别?

标签 hadoop hive partitioning

<分区>

我不清楚 hive 中的分区和分桶之间的区别,如果您能提供一些详细信息和示例,我将不胜感激。

最佳答案

Here是 Buckets 和 Partitioning 之间的一个很好的区别。

基本上,分区和分桶都对数据进行切片,以便比对未切片的数据更有效地执行查询。主要区别在于,在分区的情况下,随着数据的修改,切片的数量会不断变化,而在分桶的情况下,切片的数量是固定的,这是在创建表时指定的。

分桶是通过使用哈希算法然后对分桶数量求模来实现的。因此,一行可能会插入到任何一个桶中。分桶可用于数据采样,也可用于更有效地连接两个数据集。

关于hadoop - hive 中的分区和分桶有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19210416/

相关文章:

java - Apache Spark : Update global variables in workers

hadoop - Hive 常见用例有哪些?

hadoop - 指定要在Hive中进行分区的字段时返回错误

java - 执行错误,从org.apache.hadoop.hive.ql.exec.FunctionTask返回代码1

database - 数据库中的历史记录行管理

java - hadoop version命令给出与Java相关的错误(无此文件或目录)

hadoop - 如何将apache phoenix表/ View 数据提取到文件

hadoop - NULL 在将 Hive 查询结果写入文本文件时显示为 '\N'

graph - 需要图形分区技术

sql-server - 删除 SQL Server 2016 中的部分重复行