python - 使用 PCA (Python) 可视化聚类结果

标签 python cluster-analysis k-means

我有一个包含 61 行(用户)和 26 列的数据集,我在其中应用了 k 均值和其他算法的聚类。 在对数据集进行归一化后,首先将 KMeans 应用于数据集。 作为之前的任务,我在对这些数据进行归一化并识别出 10 个簇后对其运行 k 均值。 与此同时,我还尝试可视化这些集群,这就是我使用 PCA 来减少特征数量的原因。

我编写了以下代码:

UserID  Communication_dur   Lifestyle_dur   Music & Audio_dur   Others_dur  Personnalisation_dur    Phone_and_SMS_dur   Photography_dur Productivity_dur    Social_Media_dur    System_tools_dur    ... Music & Audio_Freq  Others_Freq Personnalisation_Freq   Phone_and_SMS_Freq  Photography_Freq    Productivity_Freq   Social_Media_Freq   System_tools_Freq   Video players & Editors_Freq    Weather_Freq
1   63  219 9   10  99  42  36  30  76  20  ... 2   1   11  5   3   3   9   1   4   8
2   9   0   0   6   78  0   32  4   15  3   ... 0   2   4   0   2   1   2   1   0   0


from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA 

Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(3) 
pca.fit(X) 
pca_data = pd.DataFrame(pca.transform(X)) 
print(pca_data.head())

给出以下结果:

   0  1  2
0  8 -4  5
1 -2 -2  1
2  1  1 -0
3  2 -1  1
4  3 -1 -3

我想使用 PCA 显示数据集的图(聚类)并解释结果? 我在这个领域确实是个新手,非常感谢您的建议!

再次提前致谢。

最佳答案

使用示例数据集:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA 
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

df, y = make_blobs(n_samples=70, centers=10,n_features=26,random_state=999,cluster_std=1)

执行缩放、PCA 并将 PC 分数放入数据帧中:

Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(2) 
pca_data = pd.DataFrame(pca.fit_transform(X),columns=['PC1','PC2']) 

执行 kmeans 并将标签放入数据框中,您就可以使用 seaborn 绘制它:

kmeans =KMeans(n_clusters=10).fit(X)
pca_data['cluster'] = pd.Categorical(kmeans.labels_)
sns.scatterplot(x="PC1",y="PC2",hue="cluster",data=pca_data)

enter image description here

或 matplotlib:

fig,ax = plt.subplots()
scatter = ax.scatter(pca_data['PC1'], pca_data['PC2'],c=pca_data['cluster'],cmap='Set3',alpha=0.7)
legend1 = ax.legend(*scatter.legend_elements(),
                    loc="upper left", title="")
ax.add_artist(legend1)

enter image description here

关于python - 使用 PCA (Python) 可视化聚类结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66204637/

相关文章:

clojure - 使用 Clojure 使用 Mahout 进行聚类 (fkmeans)

algorithm - k表示聚类算法

r - 包tm。 kmeans 的问题

python - 如何使用 R-Tree 在谷歌地图上绘制大量 map 标记

python - 即使字典键中存在属性,getattr 也会返回默认值

python - 使用 pytest 正确导入

python - Python列表,列表项中间有空格

r - 如何在R中为kmeans指定距离度量?

machine-learning - PySpark ML : Get KMeans cluster statistics

python - 如何在 Flask-Jinja Python 中使用列表中的列表