mapreduce - 无法应用MapReduce模型的机器学习算法

标签 mapreduce machine-learning

论文“Map-Reduce for Machine Learning on Multicore”展示了 10 种可以受益于 MapReduce 模型的机器学习算法。关键点是“任何符合统计查询模型的算法都可以写成某种‘求和形式’，并且可以将算法表达为求和形式，可以应用MapReduce编程模型。

对于那些无法表达为求和形式的算法，并不意味着它们不能应用MapReduce模型。谁能指出任何特定的机器学习算法，该算法不能通过 MapReduce 模型加速？

最佳答案

当数据中存在计算依赖性时，MapReduce 不起作用。这种限制使得很难表示在结构化模型上运行的算法。

As a consequence, when confronted with large scale problems, we often abandon rich structured models in favor of overly simplistic methods that are amenable to the MapReduce abstraction 2.

在机器学习社区中，许多算法在学习和推理过程中迭代地变换参数，例如置信传播、期望最大化、梯度下降和吉布斯采样。这些算法迭代地细化一组参数，直到匹配某些终止标准2 。

如果你在每次迭代中调用MapReduce，是的，我认为你仍然可以加快计算速度。这里的要点是，我们需要一个更好的抽象框架，以便能够拥抱数据的图形结构，表达复杂的调度或自动评估终止。

顺便说一句，Graphlab是出于上述原因的替代方案之一2 .

关于mapreduce - 无法应用MapReduce模型的机器学习算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13489758/

上一篇：machine-learning - 前馈神经网络和循环神经网络之间的根本区别？

下一篇：r - 使用 R 求解二次规划

相关文章：

nlp - 自然语言处理模型

hadoop - -Dmapred.job.name不适用于s3-dist-cp命令

hadoop - Pig map 减少作业以将值置于适当的范围内

firebase - 如何在 Firebase 托管上部署 Streamlit Python 应用程序？

ios - Swift 无法读取 csv

python - 在 sklearn 管道中传递上一步的参数

java - MapReduce 程序产生空输出

hadoop - 在 mapreduce 中重用可写对象

hadoop - CSV和序列文本文件格式的数据源，需要作为Hadoop MapReduce作业运行

python - 如何只修改数字变量python