我正在尝试使用以下代码在 python 中对数据集进行居中和规范化
mean = np.mean(train, axis=0)
std = np.std(train, axis=0)
norm_train = (train - mean) / std
问题是我得到了除以零的错误。数据集中的两个值最终的标准差为零。数据集的形状为 (3750, 55)。我的统计技能不是那么强,所以我不确定如何克服这个问题。有什么建议吗?
最佳答案
自 standard deviation是通过取平均值的平方偏差的总和来计算的,只有当变量的所有值都相同(都等于平均值)时,零标准偏差才有可能。在这种情况下,这些变量没有判别力,因此可以将它们从分析中删除。它们无法改进任何分类、聚类或回归任务。许多实现会为您完成或抛出有关矩阵计算的错误。
关于python - 标准差为零的归一化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36486120/