在 Spark 中使用 KMeans 聚类时,我想使用 Silhouette 来确定 k 的最佳值。 有没有最佳的并行化方法?即使其可扩展
最佳答案
不,根据定义,剪影是不可缩放的。
它使用成对距离,这总是需要 O(n^2) 时间来计算。
您将需要使用不同的东西。在大数据上使用 Silhouette 是荒谬的,计算评估度量比运行实际的 k 均值聚类算法需要更长的时间。
或者重新考虑你在做什么。例如,使用剪影是否有意义?您还可以决定在单个节点上运行比 Spark 更快的东西,在那里计算 Silhouette,并通过k简单地并行化,而不需要分布式计算的所有开销。 Spark 可能会战胜 MapReduce-Mahout,但它会输给好的非分布式实现。
关于machine-learning - 在 Spark 中使用 Silhouette 聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31863148/