mapreduce - 无法应用MapReduce模型的机器学习算法

标签 mapreduce machine-learning

论文“Map-Reduce for Machine Learning on Multicore”展示了 10 种可以受益于 MapReduce 模型的机器学习算法。关键点是“任何符合统计查询模型的算法都可以写成某种‘求和形式’,并且可以将算法表达为求和形式,可以应用MapReduce编程模型。

对于那些无法表达为求和形式的算法,并不意味着它们不能应用MapReduce模型。谁能指出任何特定的机器学习算法,该算法不能通过 MapReduce 模型加速?

最佳答案

当数据中存在计算依赖性时,MapReduce 不起作用。这种限制使得很难表示在结构化模型上运行的算法。

As a consequence, when confronted with large scale problems, we often abandon rich structured models in favor of overly simplistic methods that are amenable to the MapReduce abstraction 2.

在机器学习社区中,许多算法在学习和推理过程中迭代地变换参数,例如置信传播、期望最大化、梯度下降和吉布斯采样。这些算法迭代地细化一组参数,直到匹配某些终止标准2

如果你在每次迭代中调用MapReduce,是的,我认为你仍然可以加快计算速度。这里的要点是,我们需要一个更好的抽象框架,以便能够拥抱数据的图形结构,表达复杂的调度或自动评估终止。

顺便说一句,Graphlab是出于上述原因的替代方案之一2 .

关于mapreduce - 无法应用MapReduce模型的机器学习算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13489758/

相关文章:

nlp - 自然语言处理模型

hadoop - -Dmapred.job.name不适用于s3-dist-cp命令

hadoop - Pig map 减少作业以将值置于适当的范围内

firebase - 如何在 Firebase 托管上部署 Streamlit Python 应用程序?

ios - Swift 无法读取 csv

python - 在 sklearn 管道中传递上一步的参数

java - MapReduce 程序产生空输出

hadoop - 在 mapreduce 中重用可写对象

hadoop - CSV和序列文本文件格式的数据源,需要作为Hadoop MapReduce作业运行

python - 如何只修改数字变量python