machine-learning - 如何对抗 KMeans 聚类引起的随机性

我正在开发一种算法，根据图像数据对不同类型的狗进行分类。算法步骤为:

现在，我遇到了一些问题。在图像描述符集合中查找“单词”是非常重要的一步。由于聚类的随机性，每次运行程序时都会发现不同的聚类。不幸的结果是，有时我的分类器的准确性非常好，而有时则非常差。我将此归因于聚类算法有时会发现“好”词，有时会发现“坏”词。

有谁知道我如何避免聚类算法发现“坏”词？目前我只是进行几次聚类并取分类器的平均准确率，但一定有更好的方法。

感谢您花时间阅读本文，并感谢您的帮助!

编辑:

我没有使用 KMeans 进行分类；我正在使用支持向量机进行分类。我使用 KMeans 查找图像描述符“单词”，然后使用这些单词创建描述每个图像的直方图。这些直方图用作特征向量，输入支持向量机进行分类。

最佳答案

有许多可能的方法可以使聚类可重复:

处理 k 均值随机性的最基本方法就是简单地运行多次并选择最佳的方法(最小化内部簇距离/最大化簇间距离的方法)。
可以使用一些fixed initialization为您的数据而不是随机化。有许多用于启动 k 均值的启发式方法。或者至少使用 k-means++. 这样的算法来最小化方差
使用 k-means 的修改来保证正则化函数的全局最小值，即convex k-means
使用不同的聚类方法，这是确定性的，即。 Data Nets

关于machine-learning - 如何对抗 KMeans 聚类引起的随机性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18674701/