hadoop - map 减少概念

标签 hadoop mapreduce

哪种类型的输入和输出进行映射并减少
使用MapReduce？两个功能的输入和输出如何连接？

MapReduce中的map函数的输入是一个文档

MapReduce中map函数的输出是一个tuple(word，1)序列

MapReduce中reduce函数的输入是一个键和该键所有值的列表

MapReduce中reduce函数的输出是一个元组序列(单词，出现次数)

这是正确的吗？合并的功能如何？

最佳答案

输入和输出通过串行连接。

默认输入是TextInputFormat，它使用LineRecordReader，但是这两个属性都可以被覆盖

在下面，所有内容都只是字节，而MapReduce中的Writable对象(Text，IntWritable等)只是byte[]上的薄层

Reducer输入是映射器的联合输出，按键，是。输出是键值对或元组。但是，两个值都可以是复杂的对象，因此您输出的不仅仅是两个字段。组合器只是另一种类型的 reducer 。

关于hadoop - map 减少概念，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49573770/

上一篇：docker - 为什么 Composer create-project for Drupal 在 WSL2 中失败？

下一篇：python - Minikube，Python Alpine:找不到python命令

Hadoop - 在没有定界符的情况下定义和处理数据，某些列之间没有空格/空格

hadoop - 在 linux 64 位机器上安装 hadoop-2.2.0 时出现问题

java - 无法在 Hadoop 中使用 Mapreduce 获得预期的减少输出

hadoop - hive 中的 T-SQL isnumeric() 替换

hadoop - 谓词下推到底如何工作？

hadoop - EMR 引导操作何时运行

hadoop - 如何构造用户定义的计数器以在映射器中生成唯一数字

java - 新的 appengine-mapreduce 库中是否有/_ah/mapreduce/status 仪表板的替代品

java - 在 Hive 中创建、添加和使用 UDF