实际上,我想对CSV文件执行计算,并且对于该CSV文件的每一行,我还希望使用前四行进行计算。我怎样才能做到这一点?我读过的几乎所有MapReduce示例,读取数据的唯一方法是一次一行,甚至在不同行上的计算也彼此独立。任何资源和良好的指针将不胜感激。
最佳答案
记录的拆分方式取决于所使用的RecordReader。默认的RecordReader是LineRecordReader,因此您的记录实际上是行。如果希望数据分成4行,请尝试实现自己的RecordReader,它将数据分成4行的组。
http://developer.yahoo.com/hadoop/tutorial/module4.html
关于hadoop - 使MapReduce程序读取数据有哪些不同的方式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13834113/