matlab - 向量化特征归一化的适当零方差处理？

问题:在 Octave 中进行特征归一化时，零方差输入会导致 div-zero 错误。

问题:在处理向量化数据时，是否有一种很好的方法来处理 div-zero？

示例: 输入是一个包含列中多个数据集的矩阵:

X =  [1  3.5  7.5  9 ; 
      1  4    8    9 ; 
      1  4.5  8.5  9]

所以 X 包含三个系列:x_1 = [1,1,1], x_2 = [7.5, 8, 8.5],和 x_3 = [9,9,9]。为了使用矢量化规范化每个集合，以下方法似乎是明智的:

mu = mean(X);
sigma = std(X);
X_norm = (1 ./ sigma) .* (X - mu);

但是，上述方法将失败，因为 x_1 和 x_3 的方差均为零，因此会出现被零除错误。

我对零方差数据的首选处理是将 sigma 设置为 1。目前我正在使用以下 kludge:

dataset_size = length(sigma);

for index = 1:dataset_size
  if sigma(index) == 0
     sigma(index) = 1;
  endif
end

注意事项:

最佳答案

为什么不只是这个？

mu = mean(X);
sigma = std(X);
sigma(sigma==0) = 1; %// add this line to remove zeros
X_norm = (1 ./ sigma) .* (X - mu);

或者，为了保存一些操作:

mu = mean(X);
sigma = std(X);
ind = sigma~=0; %// detect zero values
X_norm = X - mu;
X_norm(:,ind) = X_norm(:,ind) ./ sigma(ind) ;

一般来说，可能更适合使用

sigma(sigma<=tol) = 1; %// add this line to remove values close to zero

在第一种方法中，或者

ind = sigma>tol; %// detect values close to zero

在第二种情况下，对于给定的公差 tol(例如 tol = 1e-10)。在有限精度错误可能产生诸如 1e-15 而不是零的值的应用程序中，这是一种更好的方法。

关于matlab - 向量化特征归一化的适当零方差处理？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26593803/