hadoop - hive 中的分区和分桶有什么区别？

<分区>

我不清楚 hive 中的分区和分桶之间的区别，如果您能提供一些详细信息和示例，我将不胜感激。

最佳答案

Here是 Buckets 和 Partitioning 之间的一个很好的区别。

基本上，分区和分桶都对数据进行切片，以便比对未切片的数据更有效地执行查询。主要区别在于，在分区的情况下，随着数据的修改，切片的数量会不断变化，而在分桶的情况下，切片的数量是固定的，这是在创建表时指定的。

分桶是通过使用哈希算法然后对分桶数量求模来实现的。因此，一行可能会插入到任何一个桶中。分桶可用于数据采样，也可用于更有效地连接两个数据集。

关于hadoop - hive 中的分区和分桶有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19210416/