我正在使用 Scalding,我们有大约 5.5GB 的输出文件大小。 (例如,对于 30 个 reducer ,有 30 个 5.5GB 文件)。有没有办法说,将输出文件限制为每个 512MB?我可以增加 reducer 的数量,但希望能更有活力。
最佳答案
我不确定 Scalding,但在典型的 map reduce 中,您可以通过实现多种输出格式来增加输出文件的数量。您可以根据键生成文件名前缀(默认情况下它使用部分作为前缀)。
关于hadoop - 使用 Scalding 限制 reducer 输出文件大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34591283/