hadoop - 映射器功能键

标签 hadoop mapreduce

对于天气数据示例,Hadoop权威指南说

“键是文件内的行偏移量”。

如何确定 map 功能的键?它们是否始终是输入文件中的行偏移量?如果输入包含多个文件怎么办?

最佳答案

hadoop中的默认输入格式是TextInputFormat。解释here。在这种格式下,文件被分成几行,并且关键点恰好是文件中从中取得该行的位置。

为了理解键和值的分配方式,您需要阅读有关输入格式的信息,本书稍后将在整章中对此进行介绍。

祝你好运。

关于hadoop - 映射器功能键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31334531/

相关文章:

java - 写入 HDFS 只能复制到 0 个节点而不是 minReplication (=1)

mapreduce - Spark 日志中的阶段是什么意思?

hadoop - 原生MapReduce VS HBase MapReduce

performance - 平衡 HDFS -> HBase mapreduce 作业的想法

hadoop 日志没有完整的信息

amazon-web-services - 如何使用Spark从一个AWS账户读取数据并写入另一个AWS账户?

java - hbase dns 连接错误或可能是 ipv6

hadoop - 如何获取 Phoenix URL 的 HBase IP 地址

amazon-web-services - 使用同一S3存储桶的多个凭据进行Spark

hadoop - 完成 MapReduce 作业后,RunJar 仍然处于事件状态