hadoop - 机器学习训练中的map-reduce/hadoop来自何处？

标签 hadoop mapreduce machine-learning

Map-reduce / hadoop非常适合从来自各种资源的大量数据中收集见解，并按照我们希望的方式组织它们。

但是当涉及到训练时，我的印象是我们必须一次将所有训练数据都转储到算法中(无论是SVN，Logistic回归还是随机森林)，以便该算法能够提出一个具有以下特征的模型:这一切。映射减少/ Hadoop有助于培训吗？如果是，一般情况如何？

最佳答案

是。有很多MapReduce实现，例如hadoop流，甚至还有一些简单的工具(例如Pig)，可用于学习。此外，还有基于Map / Reduce构建的分布式学习工具集，例如vowpal wabbit(https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial)。这种方法的主要思想是对一小部分数据(由HDFS分割)进行训练，然后对模型进行平均并与每个节点进行换向。因此，该模型直接从基于部分数据构建的子模型获取更新。

关于hadoop - 机器学习训练中的map-reduce/hadoop来自何处？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18516482/

上一篇：hadoop - datastax配置单元在只有3条记录的表上选择count(*)，但是需要1小时才能进行count()，为什么？

下一篇：java - Hadoop。具有统计信息的字数统计

相关文章：

Hadoop - 数据在复制到 HDFS 时自动平衡？

hadoop - 在200列1200万行数据集上执行相似功能时应使用什么？

python - 如何将 2D 列表 python 转换为一个列表并连接它们

hadoop - hadoop mr1和yarn和mr2之间的区别？

sql - 为每个导致效率问题的键找到最小值

java - 使用 Hadoop 将文本文件中的段落作为单个记录处理

MongoDB 映射减少 : Not working as expected for more than 1000 records

python - 神经网络模型

machine-learning - 机器学习算法评估

java - 创建大量的多个输出