<分区>
我不清楚 hive 中的分区和分桶之间的区别,如果您能提供一些详细信息和示例,我将不胜感激。
<分区>
我不清楚 hive 中的分区和分桶之间的区别,如果您能提供一些详细信息和示例,我将不胜感激。
最佳答案
Here是 Buckets 和 Partitioning 之间的一个很好的区别。
基本上,分区和分桶都对数据进行切片,以便比对未切片的数据更有效地执行查询。主要区别在于,在分区的情况下,随着数据的修改,切片的数量会不断变化,而在分桶的情况下,切片的数量是固定的,这是在创建表时指定的。
分桶是通过使用哈希算法然后对分桶数量求模来实现的。因此,一行可能会插入到任何一个桶中。分桶可用于数据采样,也可用于更有效地连接两个数据集。
关于hadoop - hive 中的分区和分桶有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19210416/