hadoop - 如何将级联作业的输出合并到特定大小

标签 hadoop cascading

我有一个输出 30 个 25MB 文件的级联作业。无论如何我可以将它减少到每个 256 mb 文件。我试过 -Dmapreduce.job.reduces=1。它似乎没有工作。任何指导都会有所帮助

最佳答案

Total memory = 30*25 = 750 ,

required output files = 750/256 = 3 ,

您可以在您的作业中再添加一个 map-reduce 任务。在最终输出管道上放置 group by 或 unique 或您可以为其设置 reducer 数量并将 reducer 数量设置为 3 或 4 的任何操作,这样您将获得数字输出文件的数量作为 reducer 的数量。

关于hadoop - 如何将级联作业的输出合并到特定大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45636266/

相关文章:

bash - Hadoop Crontab 放

javascript - knockout "with"绑定(bind)、级联下拉、重新加载选定值不起作用

hadoop - 如何在级联中强制 reducer ?

mapreduce - Hive QL 是否具有与直接在 Hadoop 上编写自己的 MapReduce 作业相同的表达能力?

symfony - (doctrine2 + symfony2) 级联删除 : integrity constraint violation 1451

hadoop - Apache ZooKeeper 网络用户界面

hadoop - pig 根据另一列中的值添加列

hadoop - 在 linux 上更改 hdfs 中现有用户的权限

bash - $"${@///\\}"在 bash 中是什么意思?

scala - 通过键写入多个输出 Scalding Hadoop,一个 MapReduce 作业