我运行一个聚类算法,并希望通过使用 scikit-learn 中的轮廓分数来评估结果。但是在scikit-learn中,需要计算距离矩阵:distances = pairwise_distances(X, metric=metric, **kwds)
由于我的数据是300K量级,而我的内存是2GB,结果内存不足。而且我无法评估聚类结果。
有人知道如何解决这个问题吗?
最佳答案
设置sample_size
silhouette_score
调用中的参数为小于 300K 的某个值。使用此参数将从 X
中采样数据点,并在这些数据点而不是整个数组上计算 silhouette_score
。
关于memory - 执行 scikit-learns 剪影分数时如何修复 MemoryError?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16424724/