hadoop - map 减少概念

标签 hadoop mapreduce

哪种类型的输入和输出进行映射并减少
使用MapReduce?两个功能的输入和输出如何连接?

MapReduce中的map函数的输入是一个文档

MapReduce中map函数的输出是一个tuple(word,1)序列

MapReduce中reduce函数的输入是一个键和该键所有值的列表

MapReduce中reduce函数的输出是一个元组序列(单词,出现次数)

这是正确的吗?合并的功能如何?

最佳答案

输入和输出通过串行连接。

默认输入是TextInputFormat,它使用LineRecordReader,但是这两个属性都可以被覆盖

在下面,所有内容都只是字节,而MapReduce中的Writable对象(Text,IntWritable等)只是byte[]上的薄层

Reducer输入是映射器的联合输出,按键,是。输出是键值对或元组。但是,两个值都可以是复杂的对象,因此您输出的不仅仅是两个字段。组合器只是另一种类型的 reducer 。

关于hadoop - map 减少概念,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49573770/

相关文章:

hadoop - 为集群中的yarn.scheduler.maximum-allocation设置正确值的公式是什么

Hadoop - 在没有定界符的情况下定义和处理数据,某些列之间没有空格/空格

hadoop - 在 linux 64 位机器上安装 hadoop-2.2.0 时出现问题

java - 无法在 Hadoop 中使用 Mapreduce 获得预期的减少输出

hadoop - hive 中的 T-SQL isnumeric() 替换

hadoop - 谓词下推到底如何工作?

hadoop - EMR 引导操作何时运行

hadoop - 如何构造用户定义的计数器以在映射器中生成唯一数字

java - 新的 appengine-mapreduce 库中是否有/_ah/mapreduce/status 仪表板的替代品

java - 在 Hive 中创建、添加和使用 UDF