algorithm - 选择 k 中的聚类数均值

我想对大量数据样本进行聚类，为此我在 MATLAB 中使用 k 均值函数。问题是它返回一个矩阵，其中所有数据按我指定的簇数排序。

我如何才能知道哪个簇数是最佳的。

我认为，如果我能在每个集群中获得相同数量的元素，那将是最佳的，但这种情况从未发生过。相反，它可以继续对我输入的任何数字的数据进行聚类。

请帮忙...

最佳答案

我读过，我认为对此的答案可能是:- 在 kmeans 中，我们试图根据数据的均值对数据进行分区，因此理论上我们最好的数据集是每个分区具有相同数量的数据。

我使用了 kmeans++，这是一个比 kmeans 更好的算法，因为它不会初始化一个随机值，然后迭代分区的数量，直到分区的大小几乎相等。这是一个近似数字，对于 3，我得到 2180,729,1219，对于 4，我得到 30,2422、1556,120，所以我选择 3 作为我的最终答案......

关于algorithm - 选择 k 中的聚类数均值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4231717/

相关文章：

algorithm - 计算 nCr 模 p，一个素数