我编写了一个MapReduce程序(mapper.py和reducer.py)来处理Hadoop中的PageRank问题。
我想对MapReduce进行大约10次迭代。如何将第一轮MapReduce的输出带到第二轮MapReduce的输入?
1 2 10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result
最佳答案
您可以将job1的输出链接为job2的输入。
输入目录1->输出目录1->输出目录2 ...->输出目录9->输出目录10
关于python - 如何在Hadoop中迭代MapReduce? (lang:python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43398702/