我正在使用 Carrot2 工具来完成我的论文,并在此工具上运行不同的算法。我的问题是,如何科学地比较不同算法的结果?我的意思是,我需要证明算法 1 的聚类结果优于算法 2 的结果。熵和纯度值对我有用吗?如果有用,我该如何应用它们?
谢谢。
最佳答案
在我看来,比较两种算法的最佳方法是展示它们在一些真实数据上的性能,并解释为什么它们在某些特殊情况下工作良好或不工作(例如,它在密集数据或稀疏数据上工作良好,或具有可变密度的数据...)。在某些情况下,您也许能够从理论上证明某些算法与另一种算法相比具有一些额外的理想属性。但这可能很难做到。
此外,为了确定结果是否良好,您可能需要领域专家来告诉您集群对于您的应用程序域是否有意义。
我的意思是像熵和纯度这样的度量是有趣的度量。但最终,只有当数据挖掘技术为特定领域生成有意义的结果时,它才适合该领域。
如果您正在开发通用聚类算法,那么您可能会使用这些度量来表明您的算法在某些条件下比其他算法具有更好的属性,并使用这些度量来争论这一点。但您仍然需要用一些真实数据来说明为什么它在某些情况下效果更好。
关于data-mining - 比较 Carrot2 中的聚类结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10477598/