hadoop - 机器学习训练中的map-reduce/hadoop来自何处?

标签 hadoop mapreduce machine-learning

Map-reduce / hadoop非常适合从来自各种资源的大量数据中收集见解,并按照我们希望的方式组织它们。

但是当涉及到训练时,我的印象是我们必须一次将所有训练数据都转储到算法中(无论是SVN,Logistic回归还是随机森林),以便该算法能够提出一个具有以下特征的模型:这一切。映射减少/ Hadoop有助于培训吗?如果是,一般情况如何?

最佳答案

是。有很多MapReduce实现,例如hadoop流,甚至还有一些简单的工具(例如Pig),可用于学习。此外,还有基于Map / Reduce构建的分布式学习工具集,例如vowpal wabbit(https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial)。这种方法的主要思想是对一小部分数据(由HDFS分割)进行训练,然后对模型进行平均并与每个节点进行换向。因此,该模型直接从基于部分数据构建的子模型获取更新。

关于hadoop - 机器学习训练中的map-reduce/hadoop来自何处?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18516482/

相关文章:

Hadoop - 数据在复制到 HDFS 时自动平衡?

hadoop - 在200列1200万行数据集上执行相似功能时应使用什么?

python - 如何将 2D 列表 python 转换为一个列表并连接它们

hadoop - hadoop mr1和yarn和mr2之间的区别?

sql - 为每个导致效率问题的键找到最小值

java - 使用 Hadoop 将文本文件中的段落作为单个记录处理

MongoDB 映射减少 : Not working as expected for more than 1000 records

python - 神经网络模型

machine-learning - 机器学习算法评估

java - 创建大量的多个输出