java - 是否存在 CombineParquetFileInputFormat?

标签 java hadoop mapreduce parquet bigdata

在我的项目中,我必须读取 parquet 文件并抛给 MapReduce。有很多小尺寸的 Parquet 文件。我需要一些 Combine Parquet Input Format,它可以根据分割大小组合小文件,这样映射器的数量就会减少。如果有一些实用程序或任何简单的方法可以做到这一点,请告诉我。

谢谢

最佳答案

ParquetInputFormat 是支持多文件输入的 FileInputFormat 的子类。 所以,简而言之,你只是不需要 CombileParquetFileInputFormat

只需使用 FileInputFormat.addInputPaths 指定输入即可。

ParquetInputFormat 的来源 https://github.com/Parquet/parquet-mr/blob/master/parquet-hadoop/src/main/java/parquet/hadoop/ParquetInputFormat.java

附言如果您有很多小的 parquet 文件,则很可能是您做错了什么。

关于java - 是否存在 CombineParquetFileInputFormat?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34849075/

相关文章:

hadoop - 通过 SpagoBI 5.0 连接 Hive 0.13

hadoop - 节点管理器是否在每个 DataNode 内部执行 Map 和 Reduce 阶段?

java - Hadoop框架可以使用任何语言吗?

java - 对本地 sqLite 所做的新数据或修订数据未出现在应用程序中

Hadoop MapReduce : default number of mappers

hadoop - 使用HQL将数据从一个表转移到另一个表

indexing - 是否可以在 RavenDb 5+ 中计算时间序列的移动平均线/EMA/窗口聚合?

hadoop - 如何在级联中重命名管道字段?

java - 为什么我不适用于 javafx 上的参数?

java - org.hibernate.validator.constraints.电子邮件消息 i18n