K-Means 的 Hadoop 分布式版本?

标签 hadoop k-means

想知道是否有针对 K-Means 的 Hadoop 分布式版本的开源实现?请求 Hadoop,因为数据很大,不能装在一个盒子里。

提前致谢, 林

最佳答案

您可以使用 spark为了这。 Spark 实现 KMeans . Spark 使用 RDD(弹性分布式数据集)。您的数据分布在您的集群上,每个节点处理最接近的数据。

Spark 的性能可以比 Mahout 更好,因为一些中间过程没有写在 HDFS 上。

关于K-Means 的 Hadoop 分布式版本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30501131/

相关文章:

r - RHIPE rhput()不起作用

python-2.7 - 使用杰卡德相似度对分类数据进行聚类

r - 具有单个输入变量的 kmeans 聚类图

java - Hadoop:在映射器的输出中使用自定义对象

hadoop - Hadoop集群的动态IP

python - 计算k-means的方差百分比?

k-means - 自组织映射与 k 均值

vector - 什么是使用 k 均值的矢量量化?

apache - 如何为 apache 做贡献?

azure - HDInsight 服务器本地多节点 |不在 Azure 上