目前正在 Disco 上实现 PageRank。作为迭代算法,一次迭代的结果作为下一次迭代的输入。
我有一个代表所有链接的大文件,每一行代表一个页面,行中的值代表它链接到的页面。
对于 Disco,我将这个文件分成 N 个 block ,然后运行 MapReduce 一轮。结果,我得到了一组 (page, rank) 元组。
我想将此排名提供给下一次迭代。但是,现在我的映射器需要两个输入:图形文件和 pageranks。
- 我想“压缩”在一起 图形文件和页面排名, 这样每一行代表一个 页面,它是排名,它是外链。
- 由于这个图形文件分为 N 个 block ,我需要将 pagerank 向量分成 N 个 并行 block ,并压缩区域 pagerank 向量的图表 block
这一切似乎比必要的更复杂,而且作为一个非常简单的操作(使用典型的 mapreduce 算法),我似乎遗漏了一些关于 Disco 的东西,这些东西可以真正简化方法。
有什么想法吗?
最佳答案
看起来您会希望在第一遍中使用 init_map,然后在每个后续迭代中使用 iter_map。
参见:http://discoproject.org/doc/faq.html#id7
你能输出包含外链的 python 对象,而不仅仅是 (page,rank) 元组吗?
另一种选择是在某处(dict、memcache、kyotocabinet 等)通过页面键入外链,并从映射函数中查找它们。如果您使用 Disco 链接事物,我认为您不会希望在工作流程中间将事物压缩在一起。
关于python - 迪斯科/MapReduce : Using results of previous iteration as input to new iteration,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2566402/