我正在研究主成分分析,我刚刚了解到,在将PCA应用于数据样本之前,我们必须应用两个预处理步骤,即mean normalization
和feature scaling
。但是,我不知道什么是均值标准化以及如何实现它。
一开始我搜了一下;但是,我找不到有指导性的解释。有谁可以解释什么是均值归一化以及如何实现它吗?
最佳答案
假设有一个具有“d”个特征(列)和“n”个观察值(行)的数据集。为了简单起见,让我们考虑 d=2 和 n=100。这意味着现在您的数据集有 2 个特征和 100 个观察值。 换句话说,现在您的数据集是一个具有 100 行和 2 列的二维数组 - (100x2)。 最初,当您将其可视化时,您可以看到这些点分散在二维中。
当您标准化数据集并可视化它时,您实际上可以看到所有点都已向原点移动。也就是说,所有观测点的均值为0,标准差为1。这个过程称为标准化。
你如何标准化......? 它非常简单。公式很简单。
z = (X - u) / s
Where,
X - an observation in the feature column
u - mean of the feature column
s - standard deviation of the feature column
注意:您必须对数据集中的所有特征应用标准化
引用:
https://machinelearningmastery.com/normalize-standardize-machine-learning-data-weka/
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html
关于machine-learning - 主成分分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50007810/