K-Means 的 Hadoop 分布式版本？

标签 hadoop k-means

想知道是否有针对 K-Means 的 Hadoop 分布式版本的开源实现？请求 Hadoop，因为数据很大，不能装在一个盒子里。

提前致谢，林

最佳答案

您可以使用 spark为了这。 Spark 实现 KMeans . Spark 使用 RDD(弹性分布式数据集)。您的数据分布在您的集群上，每个节点处理最接近的数据。

Spark 的性能可以比 Mahout 更好，因为一些中间过程没有写在 HDFS 上。

关于K-Means 的 Hadoop 分布式版本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30501131/

上一篇：hadoop - Oozie 堆栈跟踪

下一篇：linux - 像 "hadoop fs -ls"这样的 hadoop shell 命令是如何工作的？

相关文章：

r - RHIPE rhput()不起作用

python-2.7 - 使用杰卡德相似度对分类数据进行聚类

r - 具有单个输入变量的 kmeans 聚类图

java - Hadoop:在映射器的输出中使用自定义对象

hadoop - Hadoop集群的动态IP

python - 计算k-means的方差百分比？

k-means - 自组织映射与 k 均值

vector - 什么是使用 k 均值的矢量量化？

apache - 如何为 apache 做贡献？

azure - HDInsight 服务器本地多节点 |不在 Azure 上

©2024 IT工具网联系我们