hadoop - 如何将级联作业的输出合并到特定大小

我有一个输出 30 个 25MB 文件的级联作业。无论如何我可以将它减少到每个 256 mb 文件。我试过 -Dmapreduce.job.reduces=1。它似乎没有工作。任何指导都会有所帮助

最佳答案

Total memory = 30*25 = 750 ,

required output files = 750/256 = 3 ,

您可以在您的作业中再添加一个 map-reduce 任务。在最终输出管道上放置 group by 或 unique 或您可以为其设置 reducer 数量并将 reducer 数量设置为 3 或 4 的任何操作，这样您将获得数字输出文件的数量作为 reducer 的数量。

关于hadoop - 如何将级联作业的输出合并到特定大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45636266/

相关文章：

bash - Hadoop Crontab 放