hadoop - 如何一次将多个文件发送到单个映射器

标签 hadoop mapreduce

我的情况是

file1.txt {hi hello} ---> Mapper1
file2.txt {hi ram} ---> Mapper1一次有2个文件到达mapper,输出应为{hi,2} {hello,1} {ram,1}

最佳答案

Hadoop一次只能处理一个hdfs文件。如果超出了块大小(实际上是hadoop自己的责任),则此文件将分为多个块。

关于hadoop - 如何一次将多个文件发送到单个映射器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35287237/

相关文章:

hadoop - 将输出文件添加到 Mapreduce 中的现有输出目录

hadoop - 输入输出参数错误Hadoop

hadoop - Hadoop Libjars的位置

java - 通过将值添加到spark dataframe列来生成新列

java - 如何读入 RCFile

java - 两个具有多个数据源的映射器

hadoop - 基于 Hadoop 的流媒体框架,支持 ORC、parquet 文件格式

hadoop - 使用 es-hadoop 写入 elasticsearch 时出现问题

hadoop - yarn.log.dir 在哪里定义的?

sql - 使用HiveQL(Hadoop)在Hive中联接两个表