hadoop - 使MapReduce程序读取数据有哪些不同的方式?

标签 hadoop mapreduce elastic-map-reduce

实际上,我想对CSV文件执行计算,并且对于该CSV文件的每一行,我还希望使用前四行进行计算。我怎样才能做到这一点?我读过的几乎所有MapReduce示例,读取数据的唯一方法是一次一行,甚至在不同行上的计算也彼此独立。任何资源和良好的指针将不胜感激。

最佳答案

记录的拆分方式取决于所使用的RecordReader。默认的RecordReader是LineRecordReader,因此您的记录实际上是行。如果希望数据分成4行,请尝试实现自己的RecordReader,它将数据分成4行的组。

http://developer.yahoo.com/hadoop/tutorial/module4.html

关于hadoop - 使MapReduce程序读取数据有哪些不同的方式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13834113/

相关文章:

python - 如何使用 Avro 处理我无法搜索的流?

windows - 在 Windows 上构建 hadoop 2.6 时出错 - inutils.vcxproj 损坏或无效

hadoop - MapReduce作业默认配置的文档

hadoop - elasticsearch只插入了10个文档

hadoop - eclipse wordcount 程序中找不到类异常

hadoop - 在 HDI Hadoop 集群中启用 SSL

Hadoop 2.0。它只支持新的 MapReduce 2 还是同时支持经典和新的 MapReduce?

hadoop - Hive 中的计算统计模式

hadoop - 如果我使用 -mapper cat 而不是 -mapper org.apache.hadoop.mapred.lib.IdentityMapper,Hadoop Streaming 的性能会降低吗?

hadoop - 在Elastic MapReduce上拆分映射器的职责(MySQL + MongoDB输入)