hadoop - 在PIG中合并零件文件

我们如何合并这n个零件文件(pig操作的输出文件)。
我必须将这些文件合并为一个，然后将其用作配置单元中的输入。
我尝试使用-cat和-getmerge，但是没有运气。任何建议都会有所帮助。

谢谢

最佳答案

Hadoop FileUtil类具有 copyMerge 方法，可以很好地处理多零件文件问题。

它将把您提供的文件夹中的所有文件都带走(尽管看起来不是递归的)，然后将它们全部连接在一起以生成一个文件。

关于hadoop - 在PIG中合并零件文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41847014/

相关文章：

hadoop - 来自 Eclipse 的字数统计