hadoop - Hive巨大的数据大小从将Avro转换为Parquet

标签 hadoop hive avro parquet data-formats

我想将1天的Avro数据(约2 TB)转换为 Parquet 。

我运行了一个配置单元查询，数据成功转换为 Parquet 。

但是数据大小变为6 TB。

数据变成原来的三倍会发生什么？

最佳答案

通常，Parquet比Avro效率更高，因为它是磁盘上相邻的相同类型的列格式列。这使压缩算法在某些情况下更有效。通常，我们使用Snappy足够，容易在CPU上使用，并且具有多个属性，使其相对于zip或gzip等其他压缩方法而言，适合Hadoop。主要是可拆分的。每个块保留确定架构所需的信息。 MParquet是一种很棒的格式，从Avro移出后，我们对查询性能非常满意(我们也可以使用超快的Impapla)。

关于hadoop - Hive巨大的数据大小从将Avro转换为Parquet，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36665404/

上一篇：java - 如何从Java执行Hive HQL文件？

下一篇：hadoop - 如何在Hive中删除多个数据库？

java - 如何增加CodedInputStream.setSizeLimit()

java - 如何使用 apache avro 生成无模式的 avro 文件？

hadoop - Hive 的创建外部表是否复制数据？

apache-spark - Hive on Spark查询因资源不足而挂起

hadoop - AVRO Mapreduce 错误

hadoop - hive 中的分布式子句

hadoop - 多个映射器将输出写入单个文件

algorithm - 当 k 个元素不适合内存时，mapreduce 中的 top-k

hadoop - 通过子查询或联接配置Hive SQL平均表