r - 如何删除所有列都为零的行

标签 r select dataframe

我有以下数据框

dat <- data.frame(a = c(0,0,2,3), b= c(1,0,0,0), c=c(0,0,1,3))

哪个打印:
> dat 
  a b c
1 0 1 0
2 0 0 0
3 2 0 1
4 3 0 3

我想删除所有列都为零的行,
导致这个:
  a b c
1 0 1 0 
3 2 0 1
4 3 0 3

我怎样才能做到这一点?

我试过这个但失败了:
> row_sub = apply(dat, 1, function(row) all(row !=0 ))
> dat[row_sub,]
[1] a b c
<0 rows> (or 0-length row.names)

最佳答案

您可以使用(1)

dat[as.logical(rowSums(dat != 0)), ]

这适用于正值和负值。

大型数据集的另一种更快的可能性是 (2)
dat[rowSums(!as.matrix(dat)) < ncol(dat), ]

对于短数据帧和长数据帧,一种更快的方法是使用矩阵乘法 (3):
dat[as.logical(abs(as.matrix(dat)) %*% rep(1L, ncol(dat))), ]

一些基准:
# the original dataset
dat <- data.frame(a = c(0,0,2,3), b= c(1,0,0,0), c=c(0,0,1,3))

Codoremifa <- function() dat[rowSums(abs(dat)) != 0,]
Marco <- function() dat[!apply(dat, 1, function(x) all(x == 0)), ]
Sven <- function() dat[as.logical(rowSums(dat != 0)), ]
Sven_2 <- function() dat[rowSums(!as.matrix(dat)) < ncol(dat), ]
Sven_3 <- function() dat[as.logical(abs(as.matrix(dat)) %*% rep(1L,ncol(dat))), ]

library(microbenchmark)
microbenchmark(Codoremifa(), Marco(), Sven(), Sven_2(), Sven_3())
# Unit: microseconds
#          expr     min       lq   median       uq     max neval
#  Codoremifa() 267.772 273.2145 277.1015 284.0995 1190.197   100
#       Marco() 192.509 198.4190 201.2175 208.9925  265.594   100
#        Sven() 143.372 147.7260 150.0585 153.9455  227.031   100
#      Sven_2() 152.080 155.1900 156.9000 161.5650  214.591   100
#      Sven_3() 146.793 151.1460 153.3235 157.9885  187.845   100


# a data frame with 10.000 rows
set.seed(1)
dat <- dat[sample(nrow(dat), 10000, TRUE), ]
microbenchmark(Codoremifa(), Marco(), Sven(), Sven_2(), Sven_3())
# Unit: milliseconds
#          expr       min        lq    median        uq        max neval
#   Codoremifa()  2.426419  2.471204  3.488017  3.750189  84.268432   100
#        Marco() 36.268766 37.840246 39.406751 40.791321 119.233175   100
#         Sven()  2.145587  2.184150  2.205299  2.270764  83.055534   100
#       Sven_2()  2.007814  2.048711  2.077167  2.207942  84.944856   100
#       Sven_3()  1.814994  1.844229  1.861022  1.917779   4.452892   100

关于r - 如何删除所有列都为零的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20592611/

相关文章:

python - 我收到预期错误 <class 'openpyxl.styles.fills.Fill' > 使用 pandas read_excel 读取 excel 文件

r - 通过查找更改列名

r - 使用 tidyr,当传播值获得 NA

r - 如何使用 R-base 在堆积条形图中标记百分比值

r - 在 R 中,如何过滤数据框以仅包含具有 >=2 个非 NA 值的行?

javascript - 如何仅在选择两个下拉菜单时触发事件?

python - 在 Pandas 中更改多头/空头头寸的更有效方法

sql - 使用 SQL 从 url 中去除域名

tsql - 如何在给定行周围选择 n 行

java - JSoup 选择器包含两个元素