hadoop - 使用 Scalding 限制 reducer 输出文件大小

标签 hadoop cascading scalding

我正在使用 Scalding,我们有大约 5.5GB 的输出文件大小。 (例如,对于 30 个 reducer ,有 30 个 5.5GB 文件)。有没有办法说,将输出文件限制为每个 512MB?我可以增加 reducer 的数量,但希望能更有活力。

最佳答案

我不确定 Scalding,但在典型的 map reduce 中,您可以通过实现多种输出格式来增加输出文件的数量。您可以根据键生成文件名前缀(默认情况下它使用部分作为前缀)。

关于hadoop - 使用 Scalding 限制 reducer 输出文件大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34591283/

相关文章:

hadoop - Hadoop CDH3错误。无法启动Hadoop DataNode守护程序

java - 如何使用hadoop配置Nut 1.4?

java - 无法为hadoop指定kerberos的配置位置

hadoop - hive 将目录移动过程覆盖为 distcp?

java - 使用级联框架运行hadoop程序时获取cascading.tap.hadoop.io.MultiInputSplit类未找到异常

scala - Hortonwork HDP 2.1 支持什么版本的 Scala?

hadoop - 是否有可用于 lzo 压缩二进制数据的 Scalding 源?

java - 如何创建管道?

hadoop - 在级联中删除 outputPath

scala - Scalding:解析带头的逗号分隔数据