testing - 聚类 : Cluster validation

标签 testing cluster-analysis linear-algebra

我想对大型社交网络数据集使用一些聚类方法。问题是如何评估聚类方法。是的,我可以使用一些外部、内部和相关的集群验证方法。我使用归一化互信息(NMI)作为基于合成数据的集群验证的外部验证方法。我通过生成具有相同节点数的 5 个集群以及每个集群内部的一些强连接链接和集群之间的弱链接来生成一些合成数据集以检查聚类方法,然后我分析了该合成数据集上的谱聚类和基于模块化的社区检测方法。我对我的真实世界数据集使用具有最佳 NMI 的聚类,并检查我的算法的错误(成本函数),结果很好。我的成本函数测试方法好吗?或者我还应该再次验证我的真实单词集群的集群?

谢谢。

最佳答案

尝试不止一种措施。

有十几种集群验证措施,很难预测哪一种最适合某个问题。它们之间的区别还没有真正了解,所以最好多咨询一下。

另请注意,如果您不使用归一化度量,基线可能会非常高。因此,这些措施主要用于说“结果 A 与结果 B 比结果 C 更相似”,但不应将其视为质量的绝对衡量标准。它们是相似性的相对度量。

关于testing - 聚类 : Cluster validation,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18308868/

相关文章:

python - 如何用numpy实现tf.space_to_depth?

python - 将列的范数计算为矩阵中的向量

java - 使用 mockmvc 进行测试时无法模拟存储库

go - 在 Go 中以编程方式运行测试

internet-explorer - 如何在不使用任何虚拟以及第三方工具的情况下在同一台机器上运行多个版本的 IE(IE10、IE11)

ruby-on-rails - 如何使用 GIS 数据库测试 Rails 应用程序

python - 基于密度的聚类如何获取属于其簇的文档?

c++ - OpenCV K 均值 (kmeans2)

python - 如何在Python中按距离条件对列表列表进行聚类

matlab - MATLAB 是否优化 diag(A*B)?