我有一个疑问,在我的 session 中也多次被问到,但我成功地未能回答它。我希望您能帮助我了解这个问题的见解。
我在我的项目中使用了 kmeans 聚类来对各个问题领域的大量文档进行聚类。我还使用 matplotlib 绘制数据点的坐标。更常见的是,属于同一簇的数据点是分散的或远离属于同一簇组的其他文档或数据点。人们通常问我的问题是,如果文档或数据点来自同一集群/组,那么它们需要彼此更接近,为什么同一组/集群的文档不会发生这种情况。
我如何说服他们,有时我不知道该说什么。
除了同一问题之外,我无法控制集群的形成,但作为我所在领域的领域专家,我非常了解文档所属的问题领域。那么,我如何使用 Kmeans 或任何其他集群机制或通过使用超参数来准确地将这数千个文档配置/集群到那些问题区域中。请帮助我。
我引用了http://brandonrose.org/clustering
父亲,纽约,兄弟是一个紫色的星团。如果它属于同一个集群,那么它们都需要位于彼此更靠近的一侧绘图屏幕上。为什么它散落在剧情画面的各处。我的情况也是如此。
最佳答案
您提供的有关数据的信息非常少,因此这个答案有点推测性。但我非常确定您的数据点具有两个以上的分量,并且您在至少三维空间中进行 k 均值聚类。然后使用某种投影以 2D 方式显示它们。由于投影,原本距离很远的点看起来距离很近。二维图几乎没有说明原始高维空间中的邻域关系。
关于matplotlib - 为什么Kmeans聚类中同一组簇数据点会落得很远或者很分散?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42316819/