python - 如何在Hadoop中迭代MapReduce? (lang:python)

标签 python hadoop mapreduce hadoop-streaming

我编写了一个MapReduce程序(mapper.py和reducer.py)来处理Hadoop中的PageRank问题。

我想对MapReduce进行大约10次迭代。如何将第一轮MapReduce的输出带到第二轮MapReduce的输入?

       1                    2                           10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result

最佳答案

您可以将job1的输出链接为job2的输入。

输入目录1->输出目录1->输出目录2 ...->输出目录9->输出目录10

关于python - 如何在Hadoop中迭代MapReduce? (lang:python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43398702/

相关文章:

python - 我想检查输入是否是 python 代码

python - 将 Flask 设置为为每个环境单独配置时的非现有路径

web-services - HBase上的Web服务

hadoop - Oozie map-reduce 作业永远停留在 PREP 状态

java - MapReduce 查找词长频率

java - 是否可以在一个节点上运行多个映射器

python - 解析网站上的 HTML 以进行抓取

nosql - Hadoop Map/Reduce - 简单使用示例来执行以下操作

hadoop - HDFS 上的文件权限

Python 多处理,在循环中多次使用池在第一次迭代后卡住