论文“Map-Reduce for Machine Learning on Multicore”展示了 10 种可以受益于 MapReduce 模型的机器学习算法。关键点是“任何符合统计查询模型的算法都可以写成某种‘求和形式’,并且可以将算法表达为求和形式,可以应用MapReduce编程模型。
对于那些无法表达为求和形式的算法,并不意味着它们不能应用MapReduce模型。谁能指出任何特定的机器学习算法,该算法不能通过 MapReduce 模型加速?
最佳答案
当数据中存在计算依赖性时,MapReduce 不起作用。这种限制使得很难表示在结构化模型上运行的算法。
As a consequence, when confronted with large scale problems, we often abandon rich structured models in favor of overly simplistic methods that are amenable to the MapReduce abstraction 2.
在机器学习社区中,许多算法在学习和推理过程中迭代地变换参数,例如置信传播、期望最大化、梯度下降和吉布斯采样。这些算法迭代地细化一组参数,直到匹配某些终止标准2 。
如果你在每次迭代中调用MapReduce,是的,我认为你仍然可以加快计算速度。这里的要点是,我们需要一个更好的抽象框架,以便能够拥抱数据的图形结构,表达复杂的调度或自动评估终止。
关于mapreduce - 无法应用MapReduce模型的机器学习算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13489758/