python - 如何在Hadoop中迭代MapReduce？ (lang:python)

我编写了一个MapReduce程序(mapper.py和reducer.py)来处理Hadoop中的PageRank问题。

我想对MapReduce进行大约10次迭代。如何将第一轮MapReduce的输出带到第二轮MapReduce的输入？

       1                    2                           10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result

最佳答案

您可以将job1的输出链接为job2的输入。

输入目录1->输出目录1->输出目录2 ...->输出目录9->输出目录10

关于python - 如何在Hadoop中迭代MapReduce？ (lang:python)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43398702/

相关文章：

python - 我想检查输入是否是 python 代码