在我的项目中,我必须读取 parquet 文件并抛给 MapReduce。有很多小尺寸的 Parquet 文件。我需要一些 Combine Parquet Input Format,它可以根据分割大小组合小文件,这样映射器的数量就会减少。如果有一些实用程序或任何简单的方法可以做到这一点,请告诉我。
谢谢
最佳答案
ParquetInputFormat 是支持多文件输入的 FileInputFormat 的子类。 所以,简而言之,你只是不需要 CombileParquetFileInputFormat
只需使用 FileInputFormat.addInputPaths 指定输入即可。
ParquetInputFormat 的来源 https://github.com/Parquet/parquet-mr/blob/master/parquet-hadoop/src/main/java/parquet/hadoop/ParquetInputFormat.java
附言如果您有很多小的 parquet 文件,则很可能是您做错了什么。
关于java - 是否存在 CombineParquetFileInputFormat?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34849075/