hadoop - Map side join 可以加入的最大路径数?

标签 hadoop

Map side join实际可以加入的最大路径数是多少?

我有 n 个文件夹 - path/to/folder1 , path/to/folder2 , path/to/folder3 ....so on path/to/folder in HDFS

path/to/folder1 包含 3 个文件,比如 part-1、part-2、part-3。同样,所有剩余的文件夹中的每个文件夹都有 3 个文件,每个文件的名称都与 folder1 中的相同。

我想像下面这样使用 map side join 来加入这些文件夹

pathsToJoin <- path/to/folder1 , path/to/folder2 , path/to/folder3 ....so on path/to/folder*n*

String joinStmt = CompositeInputFormat.compose("outer",TextInputFormat,pathsToJoin);

conf.set("mapred.join.expr", joinStmt);

由于每个文件夹中有 3 个文件,该作业将产生 3 个映射任务(所有第 1 部分文件的内容加入到一个映射器,所有第 2 部分文件的内容到第 2 个映射器以及所有第 3 部分文件的内容到第 3 个映射器),但我想知道这里 n 的最大值是多少?

最佳答案

在 CompositeInputFormat 的源代码中似乎没有硬性限制,路径附加到描述连接的字符串表达式,然后解析为拆分。您可能受到内存的限制,但我想您可以毫无问题地列出 100 甚至 1000 个

关于hadoop - Map side join 可以加入的最大路径数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13579379/

相关文章:

hadoop - 通过 java 和 grunt 执行 PIG 脚本

java - 计算最终 map 中的总行数会减少hadoop中的输出

hadoop - 提高 Hive 中 ORC 文件的写入速度

hadoop - 无法使用NameNode启动hadoop问题

hadoop - 当对多个输入文件完成 mapreduce 任务时,hadoop 如何确定映射器或输入拆分的数量?

java - MapReduce Avro 输出正在创建文本文件

hadoop - 配置单元查询无法识别表达式规范中 'select' 'max' '('附近的输入

hadoop - Nutch v Solr v Nutch+Solr

hadoop - 如何在新的Hue 4 Pig Editor中设置参数

hadoop - Kerberos kadmin 服务错误