python - 通过间隙统计和预测强度估计集群数量

标签 python r cluster-analysis k-means

我正在尝试翻译差距统计和预测强度的 R 实现 http://edchedch.wordpress.com/2011/03/19/counting-clusters/进入 python 脚本,用于估计具有 3 个集群的 iris 数据中的集群数量。我没有得到 3 个集群,而是在几乎没有估计的 3 个(实际集群数量)的不同运行中得到不同的结果。 Graph显示估计数字为 10 而不是 3。我错过了什么吗?谁能帮我定位问题?

import random
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans


def dispersion (data, k):
    if k == 1:
        cluster_mean = np.mean(data, axis=0)
        distances_from_mean = np.sum((data - cluster_mean)**2,axis=1)
        dispersion_val = np.log(sum(distances_from_mean))
    else:
        k_means_model_ = KMeans(n_clusters=k, max_iter=50, n_init=5).fit(data)
        distances_from_mean = range(k)
        for i in range(k):
            distances_from_mean[i] = int()
            for idx, label in enumerate(k_means_model_.labels_):
                if i == label:
                    distances_from_mean[i] += sum((data[idx] - k_means_model_.cluster_centers_[i])**2)
        dispersion_val = np.log(sum(distances_from_mean))

    return dispersion_val

def reference_dispersion(data, num_clusters, num_reference_bootstraps):
    dispersions = [dispersion(generate_uniform_points(data), num_clusters) for i in range(num_reference_bootstraps)]
    mean_dispersion = np.mean(dispersions)
    stddev_dispersion = float(np.std(dispersions)) / np.sqrt(1. + 1. / num_reference_bootstraps) 
    return mean_dispersion

def generate_uniform_points(data):
    mins = np.argmin(data, axis=0)
    maxs = np.argmax(data, axis=0)

    num_dimensions = data.shape[1]
    num_datapoints = data.shape[0]

    reference_data_set = np.zeros((num_datapoints,num_dimensions))
    for i in range(num_datapoints):
        for j in range(num_dimensions):
            reference_data_set[i][j] = random.uniform(data[mins[j]][j],data[maxs[j]][j])

    return reference_data_set   

def gap_statistic (data, nthCluster, referenceDatasets):
    actual_dispersion = dispersion(data, nthCluster)
    ref_dispersion = reference_dispersion(data, nthCluster, num_reference_bootstraps)
    return actual_dispersion, ref_dispersion

if __name__ == "__main__":

    data=np.loadtxt('iris.mat', delimiter=',', dtype=float)

    maxClusters = 10
    num_reference_bootstraps = 10
    dispersion_values = np.zeros((maxClusters,2))

    for cluster in range(1, maxClusters+1):
        dispersion_values_actual,dispersion_values_reference = gap_statistic(data, cluster, num_reference_bootstraps)
        dispersion_values[cluster-1][0] = dispersion_values_actual
        dispersion_values[cluster-1][1] = dispersion_values_reference

    gaps = dispersion_values[:,1] - dispersion_values[:,0]

    print gaps
    print "The estimated number of clusters is ", range(maxClusters)[np.argmax(gaps)]+1

    plt.plot(range(len(gaps)), gaps)
    plt.show()

最佳答案

您的图表显示正确的值 3。让我解释一下

enter image description here

  • 随着集群数量的增加,距离指标肯定会降低。因此,您假设正确的值为 10。如果将其增加到 10 以上,距离度量将进一步减小。但这不应该是我们的决策标准
  • 我们需要找到拐点(这里用红色标记)。这是斜率平滑的点。您可能想看看 elbow curves
  • 基于以上2点,拐点为3(这也是正确解)

希望对你有帮助

关于python - 通过间隙统计和预测强度估计集群数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21002723/

相关文章:

python - Azure 语音转文本 - 连续识别

python - 无法使用正则表达式获得自定义结果

r - 使用 for 和 if 根据数据框中的其他列添加列值

python - Python 中的 R 风格负索引。不要切片

python - 具有特定大小的组的聚类

python - 语法错误 : invalid syntax Django NAME settings. py

python - 使用 NumPy 进行位破解

r - 如何使用 dplyr 将 2 个列集的内连接的列名称作为变量传递

python - pyclustering 当矩阵具有三个以上的维度时可视化 xmeans

python - 在 K 均值中使用 Elbow 曲线求 K 的可靠性如何?