想知道是否有针对 K-Means 的 Hadoop 分布式版本的开源实现?请求 Hadoop,因为数据很大,不能装在一个盒子里。
提前致谢, 林
最佳答案
您可以使用 spark为了这。 Spark 实现 KMeans . Spark 使用 RDD(弹性分布式数据集)。您的数据分布在您的集群上,每个节点处理最接近的数据。
Spark 的性能可以比 Mahout 更好,因为一些中间过程没有写在 HDFS 上。
关于K-Means 的 Hadoop 分布式版本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30501131/