hadoop - 使MapReduce程序读取数据有哪些不同的方式？

标签 hadoop mapreduce elastic-map-reduce

实际上，我想对CSV文件执行计算，并且对于该CSV文件的每一行，我还希望使用前四行进行计算。我怎样才能做到这一点？我读过的几乎所有MapReduce示例，读取数据的唯一方法是一次一行，甚至在不同行上的计算也彼此独立。任何资源和良好的指针将不胜感激。

最佳答案

记录的拆分方式取决于所使用的RecordReader。默认的RecordReader是LineRecordReader，因此您的记录实际上是行。如果希望数据分成4行，请尝试实现自己的RecordReader，它将数据分成4行的组。

http://developer.yahoo.com/hadoop/tutorial/module4.html

关于hadoop - 使MapReduce程序读取数据有哪些不同的方式？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13834113/

上一篇：hadoop - 需要帮助以启动具有IO异常的Hadoop-1.0.4中的任务跟踪器。

下一篇：hadoop - 由启动集群的同一用户运行时，Pig MR作业失败

相关文章：

python - 如何使用 Avro 处理我无法搜索的流？

windows - 在 Windows 上构建 hadoop 2.6 时出错 - inutils.vcxproj 损坏或无效

hadoop - MapReduce作业默认配置的文档

hadoop - elasticsearch只插入了10个文档

hadoop - eclipse wordcount 程序中找不到类异常

hadoop - 在 HDI Hadoop 集群中启用 SSL

Hadoop 2.0。它只支持新的 MapReduce 2 还是同时支持经典和新的 MapReduce？

hadoop - Hive 中的计算统计模式

hadoop - 如果我使用 -mapper cat 而不是 -mapper org.apache.hadoop.mapred.lib.IdentityMapper，Hadoop Streaming 的性能会降低吗？

hadoop - 在Elastic MapReduce上拆分映射器的职责(MySQL + MongoDB输入)