我有一个很大的文本文件 (5 GB),每行一个字符串。我需要使用专有算法将每一行与其他每一行进行比较。我是 MapReduce 的新手,但有 Java 经验。给我带来麻烦的问题是创建单独的 map 输入。文档似乎是在假设每一行都不依赖于任何其他行的情况下编写的。执行此操作的最佳方法是什么?
最佳答案
这里有一些关于使用 Hadoop 进行连接的有趣论文:
http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdf http://www.inf.ed.ac.uk/publications/thesis/online/IM090720.pdf http://pages.cs.wisc.edu/~jignesh/publ/hadoopjoin.pdf
我认为您还应该研究一下 Hadoop mapred 连接框架:
http://hadoop.apache.org/common/docs/r0.20.0/api/org/apache/hadoop/mapred/join/package-summary.html
关于java - 与 Hadoop MapReduce 的成对比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11879369/