machine-learning - 在 Scikit 中使用 K Mean 选择特征并恢复特征

标签 machine-learning scikit-learn cluster-analysis k-means

我想在 Scikit 中进行一些 K 均值聚类。我有 9 个特征,但我只想在聚类中选择其中的四个,而且由于四个聚类中的每一个都是用不同的指标来衡量的,所以我想对要聚类的每四个特征进行标准化。但是,我想以原始形式列出每个数据及其各自的聚类点。我应该怎么办?

最佳答案

您始终可以使用原始数据点。

要么重新计算原始数据中的质心,要么应用逆归一化(z-归一化是可逆的!);但这样您将只能获取您使用的四个属性的数据。

重新计算原始数据中的质心是微不足道的,并且还会为您提供有关其他属性的信息(如果您可以计算平均值,并且它们不是例如分类的;但是您可能想查看模式相反)

关于machine-learning - 在 Scikit 中使用 K Mean 选择特征并恢复特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26318877/

相关文章:

r - R中随机森林中的二元分类或未知类

python - R 中的 lm 与 Python 中的 statsmodel OLS 的不同结果

python - 随机搜索CV : All estimators failed to fit

python - 在 DBSCAN 中使用 Mahalanobis 等替代距离度量

python - scikit-learn - 具有置信区间的 ROC 曲线

python - 聚类稀疏共现矩阵

python - 使用 PCA (Python) 可视化聚类结果

matlab - 线性回归中的梯度下降出错

hadoop - 如何从 Mahout in Action 运行 K 均值聚类?

machine-learning - 机器学习中数据集的标记