我想将1天的Avro数据(约2 TB)转换为 Parquet 。
我运行了一个配置单元查询,数据成功转换为 Parquet 。
但是数据大小变为6 TB。
数据变成原来的三倍会发生什么?
最佳答案
通常,Parquet比Avro效率更高,因为它是磁盘上相邻的相同类型的列格式列。这使压缩算法在某些情况下更有效。通常,我们使用Snappy足够,容易在CPU上使用,并且具有多个属性,使其相对于zip或gzip等其他压缩方法而言,适合Hadoop。主要是可拆分的。每个块保留确定架构所需的信息。 MParquet是一种很棒的格式,从Avro移出后,我们对查询性能非常满意(我们也可以使用超快的Impapla)。
关于hadoop - Hive巨大的数据大小从将Avro转换为Parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36665404/