machine-learning - 在 Spark 中使用 Silhouette 聚类

在 Spark 中使用 KMeans 聚类时，我想使用 Silhouette 来确定 k 的最佳值。有没有最佳的并行化方法？即使其可扩展

最佳答案

不，根据定义，剪影是不可缩放的。

它使用成对距离，这总是需要 O(n^2) 时间来计算。

您将需要使用不同的东西。在大数据上使用 Silhouette 是荒谬的，计算评估度量比运行实际的 k 均值聚类算法需要更长的时间。

或者重新考虑你在做什么。例如，使用剪影是否有意义？您还可以决定在单个节点上运行比 Spark 更快的东西，在那里计算 Silhouette，并通过k简单地并行化，而不需要分布式计算的所有开销。 Spark 可能会战胜 MapReduce-Mahout，但它会输给好的非分布式实现。

关于machine-learning - 在 Spark 中使用 Silhouette 聚类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31863148/

相关文章：

scala - Spark 数据帧内映射中结构数组的聚合