hadoop - Hadoop Mapper读取键值对

标签 hadoop mapreduce

我可以在映射器函数中使用内置的InputFormat来读取以下格式的输入行:

Name [key1#val1,key2#val2,key3#val3,key4#val4]

示例输入数据可能如下所示:
sanjose [population#123,area#123,address#1,jkui,ty,tz#PST]
delhi [population#1823,area#1023,address#1,jkui,ty,tz#IST]
boston [population#1823,area#1023,address#1,jkui,ty,tz#EST]

最佳答案

设置属性mapreduce.input.keyvaluelinerecordreader.key.value.separator并使用job.setInputFormatClass(KeyValueTextInputFormat.class);
在您的情况下,我相信\t是键值分隔符

关于hadoop - Hadoop Mapper读取键值对,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25687934/

相关文章:

r - 在 sparklyr 中断开连接后,spark 数据帧是否会自动删除?如果没有,我们该怎么做?

python - MapReduce,调整Mapper方法

java - 烫 'multiple map()'优化

hadoop - Mapreduce 中的 block

java - 使用 Hadoop MapReduce 将序列号添加到文本文件中的每条记录

hadoop - 输入分割是否被复制到 JobTracker 文件系统?

hadoop - 有什么办法可以控制输入减少 map 减少

python - Hadoop流式传输调用python脚本

hadoop - 如何在MapReduce框架中分割输入文件?

java - 用于日志分析的 Map Reduce 作业未在 Hadoop 2.7.3 伪分布式模式下运行