machine-learning - 主成分分析

标签 machine-learning pca

我正在研究主成分分析,我刚刚了解到,在将PCA应用于数据样本之前,我们必须应用两个预处理步骤,即mean normalizationfeature scaling 。但是,我不知道什么是均值标准化以及如何实现它。

一开始我搜了一下;但是,我找不到有指导性的解释。有谁可以解释什么是均值归一化以及如何实现它吗?

最佳答案

假设有一个具有“d”个特征(列)和“n”个观察值(行)的数据集。为了简单起见,让我们考虑 d=2 和 n=100。这意味着现在您的数据集有 2 个特征和 100 个观察值。 换句话说,现在您的数据集是一个具有 100 行和 2 列的二维数组 - (100x2)。 最初,当您将其可视化时,您可以看到这些点分散在二维中。

当您标准化数据集并可视化它时,您实际上可以看到所有点都已向原点移动。也就是说,所有观测点的均值为0,标准差为1。这个过程称为标准化。

Sample Data Visualization

你如何标准化......? 它非常简单。公式很简单。

z = (X - u) / s

Where, 

X - an observation in the feature column
u - mean of the feature column
s - standard deviation of the feature column

注意:您必须对数据集中的所有特征应用标准化

引用:

https://machinelearningmastery.com/normalize-standardize-machine-learning-data-weka/

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

关于machine-learning - 主成分分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50007810/

相关文章:

python - 在 python 中,如何在 django 或 Flask 等 REST 服务中仅加载一次 ML 模型?

python-3.x - 根据 .hdf5 中的权重和 .json 中的选项在 keras 中实例化 ELMo 模型

MATLAB 内存不足,但不应如此

r - 主成分分析,成分标签?

machine-learning - PCA + k-means 结果形成小簇

python - 如何在 scikit-learn 中使用 LDA(线性判别式)进行预测?

machine-learning - 在深度学习方法中结合临床和图像数据的最佳方法是什么?

machine-learning - 为什么当我使用更多变量时,ROC 中的曲线下面积 (AUC) 会减少?

machine-learning - 我可以训练一些东西来检测屏幕上的物体并根据结果单击适当的位置吗?

python - 手势识别 (PCA) - Python