java - 与 Hadoop MapReduce 的成对比较

标签 java hadoop mapreduce amazon-emr

我有一个很大的文本文件 (5 GB),每行一个字符串。我需要使用专有算法将每一行与其他每一行进行比较。我是 MapReduce 的新手,但有 Java 经验。给我带来麻烦的问题是创建单独的 map 输入。文档似乎是在假设每一行都不依赖于任何其他行的情况下编写的。执行此操作的最佳方法是什么?

最佳答案

这里有一些关于使用 Hadoop 进行连接的有趣论文:

http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdf http://www.inf.ed.ac.uk/publications/thesis/online/IM090720.pdf http://pages.cs.wisc.edu/~jignesh/publ/hadoopjoin.pdf

我认为您还应该研究一下 Hadoop mapred 连接框架:

http://hadoop.apache.org/common/docs/r0.20.0/api/org/apache/hadoop/mapred/join/package-summary.html

关于java - 与 Hadoop MapReduce 的成对比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11879369/

相关文章:

java - 我如何确定 JDialog 是否有 child ?

java - java多线程显示进度

java - 基于方法参数的方法调用的细粒度同步/锁定

Hadoop 流媒体 API : how to remove unwanted delimiters

algorithm - 如何用MapReduce/Hadoop实现特征值计算?

hadoop - 如何将级联作业的输出合并到特定大小

java - 计算数组中的重复值

java - Stream、Map、Reduce……是怎么做到的?

hadoop - hadoop YARN内存和核心如何工作?

java - Hadoop: reducer 的数量不等于我在程序中设置的数量