关闭。这个问题是off-topic .它目前不接受答案。
想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。
8年前关闭。
Improve this question
我使用 R 的 kmeans 指令在数据集中执行 k-means 算法。我对我去的一些参数有疑问。结果是:
Cluster means:
Sepal.Length Sepal.Width Petal.Length Petal.Width
1 5.006000 3.428000 1.462000 0.246000
在那种情况下,Cluster 意味着什么?它是簇内所有对象距离的平均值?
同样在最后一部分我有:
Within cluster sum of squares by cluster:
[1] 15.15100 39.82097 23.87947
(between_SS / total_SS = 88.4 %)
那88.4%的值又可以是什么解释呢?
谢谢
最佳答案
聚类均值组合给出输入变量定义的多元空间中聚类的质心(中心)。因此,您显示的集群 1 的一组均值是该集群的质心(中心)的坐标。它们被计算为分配给该集群的那些样本的每个变量的值的平均值。88.4 %
是对数据集中由聚类解释的总方差的度量。 k-means 最小化样本的组内分散(扩散),即平方和。这最大化了组间分散。通过将样本分配给 k 个簇而不是 n(样本数)个簇,平方和减少了 88.4%。
关于R中使用的k-means的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14524818/