我知道分区表用于水平分配负载,但它们的具体用途是什么?谁能用一个简单的例子向我解释一下?
最佳答案
分区允许 Hive 访问您的数据子集,而无需读取所有数据。这是为什么这可能有用的具体示例。为了使这一点易于理解,我的解释非常精简,如果您想要的不仅仅是我试图提供的表面层面的理解,我建议您阅读其他地方的 Hive 分区。
您正在以每天 ~1TB
的速率接收带时间戳的数据。您有 100 天前的数据,总数据负载为 ~100TB
。很多时候,您希望汇总过去 10 天的一些数据。如果不进行分区,您将不得不读入所有 100TB
数据,尽管其中大部分数据无论如何都会被 Hive 忽略,因为它与您的过滤器日期不匹配(在您的 WHERE 子句中)。如果按日期分区,Hive 会将每天的数据分成 block ,每个 block 有 ~1TBGB
。 Hive 查看您的 WHERE 子句并提前确定哪些分区将通过过滤器并仅处理该数据。在这种情况下,我们只需查看 10TB
的数据,这将大大减少我们对集群资源的使用并增加作业完成时间。现在,即使我们拥有总计 1PB
的 1000 天数据,我们仍然只需要查看 10TB
的数据。
在实践中,许多 Hive 查询只关心总数据量中定义明确的子集是很常见的。想一想您经常在 WHERE 子句中为哪些列指定范围(或单个特定值)。您甚至可以在多列上进行分区。例如,如果我们有一个包含 10 种可能颜色的颜色列,并且每种颜色每天负责大约 100GB 的数据,我们可能会另外根据颜色进行分区。那么如果我们只关心过去10天的红色
数据,我们只需要处理1TB
的数据。
注意不要过度分区。从我的日期示例中,您可能会认为,如果按日期分区很好,则按时间戳分区到秒会更好。这在理论上允许您只提取您关心的行。但是,如果这样做,您的分区最终会变得非常小,并且 Hive 无法很好地处理非常小的文件。在太多列上进行分区也存在同样的问题。另一件需要注意的事情是你的数据在你分区的列上的分布情况。如果您的数据中 90% 的颜色为 black
,9% 的数据为 red
,其余 1% 分配给其他 8 种颜色,那么您将拥有大量数据和一些不理想的小分区。
分区还有其他一些好处,例如减小基础数据的文件大小。这是通过将该列从支持表的文件中取出并将该列的值放入包含该分区的文件夹中来实现的。
从阅读您的问题来看,您似乎在寻找有关分区表的答案。托管表与外部表是一个完全独立的问题,应该有自己的问题。
关于hadoop - Hive 中分区表的用途是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19563259/