hadoop - Hive巨大的数据大小从将Avro转换为Parquet

标签 hadoop hive avro parquet data-formats

我想将1天的Avro数据(约2 TB)转换为 Parquet 。

我运行了一个配置单元查询,数据成功转换为 Parquet 。

但是数据大小变为6 TB。

数据变成原来的三倍会发生什么?

最佳答案

通常,Parquet比Avro效率更高,因为它是磁盘上相邻的相同类型的列格式列。这使压缩算法在某些情况下更有效。通常,我们使用Snappy足够,容易在CPU上使用,并且具有多个属性,使其相对于zip或gzip等其他压缩方法而言,适合Hadoop。主要是可拆分的。每个块保留确定架构所需的信息。 MParquet是一种很棒的格式,从Avro移出后,我们对查询性能非常满意(我们也可以使用超快的Impapla)。

关于hadoop - Hive巨大的数据大小从将Avro转换为Parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36665404/

相关文章:

hadoop - 尝试在全新安装的 Hortonworks 上运行 Hadoop mapReduce 时出现 java.net.SocketTimeoutException

java - 如何增加CodedInputStream.setSizeLimit()

java - 如何使用 apache avro 生成无模式的 avro 文件?

hadoop - Hive 的创建外部表是否复制数据?

apache-spark - Hive on Spark查询因资源不足而挂起

hadoop - AVRO Mapreduce 错误

hadoop - hive 中的分布式子句

hadoop - 多个映射器将输出写入单个文件

algorithm - 当 k 个元素不适合内存时,mapreduce 中的 top-k

hadoop - 通过子查询或联接配置Hive SQL平均表