algorithm - map reduce算法的并行效率计算公式是什么?

标签 algorithm hadoop parallel-processing mapreduce

有没有公式可以告诉我们map reduce算法的并行效率? (换句话说,我如何在数学上证明 MR 算法 A 优于 MR 算法 B)

我用谷歌搜索,但我只能在 wiki 上找到并行算法的加速和效率的定义。但如果有人能展示这些公式如何应用于 MR 算法,那就太好了

最佳答案

看看维基 for Bulk Synchronous Parallel in short BSP.

Rob Bisselings 的论文中包含另一个复杂度计算

Parallel Scientific Computation: A Structured Approach Using BSP and MPI

BSP 是对 MapReduce 的抽象,在链接底部包含复杂度/成本分析公式。

所以您需要做的是,将您的MapReduce 算法转换为BSP 版本。屏障同步是例如 MapReduce 阶段之间的转换或新的 MapReduce 作业。消息(通信)是您在 MapReduce 函数中发送到文件系统的内容。

关于algorithm - map reduce算法的并行效率计算公式是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16100845/

相关文章:

algorithm - 加布里埃尔图算法

c++ - 消息框中的字符串自动换行?

algorithm - 0 1 矩阵平衡

hadoop - Pig - 如何在 pig 中使用嵌套 for 循环来获取元组内的元素列表?

hadoop - 如何创建以半列分隔并以逗号作为小数点的分区表?

hadoop - map 简化和RDBMS

java - 三元组的最大值和最小值

r - 当应用于 df[i,] 中的数据帧时, foreach %dopar% 实际在做什么

c++ - 并行化 std::for_each 中的数据竞争

python 2.6 : parallel parsing with urllib2