require('dplyr')
set.seed(8)
df <- data.frame(v1=rnorm(5),
v2=rnorm(5),
v3=rnorm(5))
如果我要计算上面的值的数量,比如说 0 并将其放入一个新列中,我会这样做:
mutate(df, n=apply(df,1,function(x)sum(x>0)))
这将给出:
v1 v2 v3 n
1 -0.08458607 -0.1078814 -0.75979380 0
2 0.84040013 -0.1702891 0.29204986 2
3 -0.46348277 -1.0883317 0.42139859 1
4 -0.55083500 -3.0110517 -1.29448908 0
5 0.73604043 -0.5931743 0.06928509 2
现在我想将 dplyr 与链接一起使用,并在列的子集 v1
和 v2
上进行相同的操作,但无法计算了解如何应用正确的数据。如果我只是这样做(在再次进行 df
后):
df %>%
select(v1, v2) %>%
mutate(n=apply(df,1,function(x)sum(x>0)))
...给出与上面相同的内容(相同的 n
即它对所有三列进行计数),同时使用 .
传递数据或只是空白:不起作用。
df %>%
select(v1, v2) %>%
mutate(n=apply(.,1,function(x)sum(x>0)))
或者:
df %>%
select(v1, v2) %>%
mutate(n=apply(1,function(x)sum(x>0)))
怎么了?
最佳答案
使用select
对所需列进行子集化后,应用rowwise()
函数,然后使用do
。这里 .
指的是我们在 select
步骤之后获得的数据帧。当我们执行 sum(.>0)
时,它将将该函数应用于新数据集的每一行。最后,我们 data.frame(., n=..)
获取之前的所有列以及新创建的 n
。
df %>%
select(v1, v2) %>%
rowwise() %>%
do(data.frame(., n=sum(.>0)))
# v1 v2 n
#1 -0.08458607 -0.1078814 0
#2 0.84040013 -0.1702891 1
#3 -0.46348277 -1.0883317 0
#4 -0.55083500 -3.0110517 0
#5 0.73604043 -0.5931743 1
关于R:使用链接在 select() 之后使用 mutate() 和 apply,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27151046/