Map-reduce / hadoop非常适合从来自各种资源的大量数据中收集见解,并按照我们希望的方式组织它们。
但是当涉及到训练时,我的印象是我们必须一次将所有训练数据都转储到算法中(无论是SVN,Logistic回归还是随机森林),以便该算法能够提出一个具有以下特征的模型:这一切。映射减少/ Hadoop有助于培训吗?如果是,一般情况如何?
最佳答案
是。有很多MapReduce实现,例如hadoop流,甚至还有一些简单的工具(例如Pig),可用于学习。此外,还有基于Map / Reduce构建的分布式学习工具集,例如vowpal wabbit(https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial)。这种方法的主要思想是对一小部分数据(由HDFS分割)进行训练,然后对模型进行平均并与每个节点进行换向。因此,该模型直接从基于部分数据构建的子模型获取更新。
关于hadoop - 机器学习训练中的map-reduce/hadoop来自何处?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18516482/