hadoop - 在PIG中合并零件文件

标签 hadoop hive hdfs apache-pig bigdata

我们如何合并这n个零件文件(pig操作的输出文件)。
我必须将这些文件合并为一个,然后将其用作配置单元中的输入。
我尝试使用-cat和-getmerge,但是没有运气。任何建议都会有所帮助。

谢谢

最佳答案

Hadoop FileUtil类具有 copyMerge 方法,可以很好地处理多零件文件问题。

它将把您提供的文件夹中的所有文件都带走(尽管看起来不是递归的),然后将它们全部连接在一起以生成一个文件。

关于hadoop - 在PIG中合并零件文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41847014/

相关文章:

hadoop - 来自 Eclipse 的字数统计

hdfs - 如何使用 Apache Flink 读取 HDFS 中的 parquet 文件?

hadoop - Hive为什么要在本地文件系统中创建表

hive - 检查 hive 数组中的所有元素是否包含字符串模式

hadoop - Hive 表导出优化

hadoop - 如何使用配置单元 1.2 从 s3 中的 Parquet 文件创建外部表?

hadoop - 在 hive 的 'Insert Overwrite'动态分区查询中设置分区位置

java - 无法使用本地 hadoop 连接 azure blob 存储

hadoop - 如何通过 (b,a) 过滤 (a,b) 关系?

hadoop - 在 hadoop/map reduce 中读取 avro 格式数据