hadoop - 在数据级别而非 strip 级别合并Orc文件

标签 hadoop hive orc

我想在数据级别进行合并，以减少 strip 数量。这是因为我每小时都要处理文件，并且每个分区都创建许多较小的ORC文件。我知道配置单元串联可以在 strip 级别合并文件。如果我串联，文件合并只会在 strip 级别发生，就像要添加许多 strip 一样。我最终只有2-3行有多个条纹。我想减少条纹，增加行数。

最佳答案

merge.orcfile.stripe.level = false应该可以工作，但是我还没有在集群上工作。

我必须编写一个自定义程序来读取和合并文件。

关于hadoop - 在数据级别而非 strip 级别合并Orc文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46346307/

上一篇：python - 我可以在Windows 10 Pro上使用带有最新pycharm 2016.3.2的docker引擎吗

下一篇：docker - 如何使用基础镜像创建没有依赖关系的自己的镜像？

相关文章：

哈多普。关于在 HDFS 中创建文件

hadoop - 按现有字段分区 Hive 表？

apache-spark - 如果不使用Map Reduce，Hive 3上的Hive ORC ACID是否需要TEZ？

hadoop - 分桶表上的 Hive 查询很慢

hadoop - 比较相似的 Hive 表

java - Hive UDF 在 select 中抛出 Class Not Found 异常

eclipse - 找到接口(interface) org.apache.hadoop.mapreduce.jobcontext 但是当另一个类工作正常时一个类的类预期错误

hadoop - Hive查询的输出消息

hadoop - hive 查询CSV文本分隔符问题

hadoop - 为什么使用 ORC 的 MapReduce 进程需要一个 HIVE 类？