hadoop - 在数据级别而非 strip 级别合并Orc文件

标签 hadoop hive orc

我想在数据级别进行合并,以减少 strip 数量。这是因为我每小时都要处理文件,并且每个分区都创建许多较小的ORC文件。我知道配置单元串联可以在 strip 级别合并文件。如果我串联,文件合并只会在 strip 级别发生,就像要添加许多 strip 一样。我最终只有2-3行有多个条纹。我想减少条纹,增加行数。

最佳答案

merge.orcfile.stripe.level = false应该可以工作,但是我还没有在集群上工作。

我必须编写一个自定义程序来读取和合并文件。

关于hadoop - 在数据级别而非 strip 级别合并Orc文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46346307/

相关文章:

哈多普。关于在 HDFS 中创建文件

hadoop - 按现有字段分区 Hive 表?

apache-spark - 如果不使用Map Reduce,Hive 3上的Hive ORC ACID是否需要TEZ?

hadoop - 分桶表上的 Hive 查询很慢

hadoop - 比较相似的 Hive 表

java - Hive UDF 在 select 中抛出 Class Not Found 异常

eclipse - 找到接口(interface) org.apache.hadoop.mapreduce.jobcontext 但是当另一个类工作正常时一个类的类预期错误

hadoop - Hive查询的输出消息

hadoop - hive 查询CSV文本分隔符问题

hadoop - 为什么使用 ORC 的 MapReduce 进程需要一个 HIVE 类?