我想对大量数据样本进行聚类,为此我在 MATLAB 中使用 k 均值函数。问题是它返回一个矩阵,其中所有数据按我指定的簇数排序。
我如何才能知道哪个簇数是最佳的。
我认为,如果我能在每个集群中获得相同数量的元素,那将是最佳的,但这种情况从未发生过。相反,它可以继续对我输入的任何数字的数据进行聚类。
请帮忙...
最佳答案
我读过,我认为对此的答案可能是:- 在 kmeans 中,我们试图根据数据的均值对数据进行分区,因此理论上我们最好的数据集是每个分区具有相同数量的数据。
我使用了 kmeans++,这是一个比 kmeans 更好的算法,因为它不会初始化一个随机值,然后迭代分区的数量,直到分区的大小几乎相等。这是一个近似数字,对于 3,我得到 2180,729,1219,对于 4,我得到 30,2422、1556,120,所以我选择 3 作为我的最终答案......
关于algorithm - 选择 k 中的聚类数均值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4231717/