r - 如何解决prcomp.default() : cannot rescale a constant/zero column to unit variance

标签 r matrix pca prcomp

我有一个包含 9 个样本(行)和 51608 个变量(列)的数据集,每当我尝试缩放它时,我都会收到错误:

这很好用

pca = prcomp(pca_data)

但是,

pca = prcomp(pca_data, scale = T)

给出

> Error in prcomp.default(pca_data, center = T, scale = T) : 
  cannot rescale a constant/zero column to unit variance

显然,发布可重现的示例有点困难。你知道这笔交易会是什么吗?

寻找常量列:

    sapply(1:ncol(pca_data), function(x){
               length = unique(pca_data[, x]) %>% length
             }) %>% table

输出:

    .
        2     3     4     5     6     7     8     9 
     3892  4189  2124  1783  1622  2078  5179 30741 

所以没有常量列。与 NA 相同 -

    is.na(pca_data) %>% sum

    >[1] 0

这工作正常:

    pca_data = scale(pca_data)

但是之后两者仍然给出完全相同的错误:

    pca = prcomp(pca_data)
    pca = prcomp(pca_data, center = F, scale = F)

那么为什么我无法根据这些数据获得缩放后的主成分分析呢?好的,让我们 100% 确定它不是恒定的。

    pca_data = pca_data + rnorm(nrow(pca_data) * ncol(pca_data))

同样的错误。数值数据?

    sapply( 1:nrow(pca_data), function(row){
      sapply(1:ncol(pca_data), function(column){
         !is.numeric(pca_data[row, column])
       })
     } ) %>% sum

还是同样的错误。我没主意了。

编辑:至少需要更多的技巧来解决它。

后来,仍然很难对这些数据进行聚类,例如:

    Error in hclust(d, method = "ward.D") : 
      NaN dissimilarity value in intermediate results. 

在某个截止值下修剪值(例如 < 1 到零)没有效果。最终起作用的是修剪列中具有超过 x 个零的所有列。适用于 # 个零 <= 6,但 7+ 出现错误。不知道这是否意味着这是一个普遍的问题,或者这是否只是碰巧捕获了一个有问题的列。如果有人有任何想法,仍然会很高兴听到原因,因为只要没有变量全为零(或以另一种方式为常量),这应该可以正常工作。

最佳答案

我认为您没有正确寻找零方差列。让我们尝试一些虚拟数据。首先,一个可接受的矩阵:10x100:

mat <- matrix(rnorm(1000, 0), nrow = 10)

还有一个零方差列。我们称之为 oopsmat

const <- rep(0.1,100)
oopsmat <- cbind(const, mat)

oopsmat 的前几个元素如下所示:

      const                                                                                               
 [1,]   0.1  0.75048899  0.5997527 -0.151815650  0.01002536  0.6736613 -0.225324647 -0.64374844 -0.7879052
 [2,]   0.1  0.09143491 -0.8732389 -1.844355560  0.23682805  0.4353462 -0.148243210  0.61859245  0.5691021
 [3,]   0.1 -0.80649512  1.3929716 -1.438738923 -0.09881381  0.2504555 -0.857300053 -0.98528008  0.9816383
 [4,]   0.1  0.49174471 -0.8110623 -0.941413109 -0.70916436  1.3332522  0.003040624  0.29067871 -0.3752594
 [5,]   0.1  1.20068447 -0.9811222  0.928731706 -1.97469637 -1.1374734  0.661594937  2.96029102  0.6040814

让我们在 oopsmat 上尝试缩放和未缩放的 PCA:

PCs <- prcomp(oopsmat) #works
PCs <- prcomp(oopsmat, scale. = T) #not forgetting the dot
#Error in prcomp.default(oopsmat, scale. = T) : 
   #cannot rescale a constant/zero column to unit variance

因为如果标准差为无穷大,则无法除以它。为了识别零方差列,我们可以使用 which 来获取变量名称,如下所示。

which(apply(oopsmat, 2, var)==0)
#const 
#1 

要从数据集中删除零方差列,您可以使用相同的 apply 表达式,将方差设置为不等于零。

oopsmat[ , which(apply(oopsmat, 2, var) != 0)]

希望有助于让事情变得更清晰!

关于r - 如何解决prcomp.default() : cannot rescale a constant/zero column to unit variance,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40315227/

相关文章:

r - 它有一些功能专门用于处理 tibble 和管道衬里的副作用吗?

matrix - 如何用rgb图像绘制矩阵?

python - 将 PCA 应用于测试数据

c - 如何访问双指针样式矩阵中的元素

c - 使用出租车几何的距离 : weird output

OpenCV PCA问题

r - R中的PCA多图

html - 无论如何在 Rmarkdown 中并排对齐代码和输出?

R:X 错误中的 NA/NaN/Inf

r - 代码相当于 RStudio 查看器 Pane 中的 'broom' 图标?