我想知道是否有办法做到这一点:
iris %.% group_by(Species) %.%
mutate(v1=Sepal.Length / mean(Sepal.Length)) %.%
filter(v1 > 1.15) %.% select(Species:v1)
同时跳过选择
位。我认为以下应该有效(但由于多种原因无效):
iris %.% group_by(Species) %.%
select(Species, v1=Sepal.Length / mean(Sepal.Length)) %.%
filter(v1 > 1.15)
请注意,在这个示例中,我将 mutate
替换为 select
,希望单独就能做到这一点。这也不起作用,因为 summarize
期望表达式返回 1 个值:
iris %.%
group_by(Species) %.%
summarise(Sepal.Length / mean(Sepal.Length)) %.%
filter(v1 > 1.15)
显然,这没什么大不了的,但想知道是否有一种更简单的方法来复制默认的 data.table
行为:
data.table(iris)[, Sepal.Length / mean(Sepal.Length), by=Species][V1 > 1.15]
它只产生 by
列和计算值:
Species V1
1: setosa 1.158610
2: versicolor 1.179245
3: versicolor 1.162399
4: virginica 1.153613
5: virginica 1.168792
6: virginica 1.168792
7: virginica 1.168792
8: virginica 1.199150
9: virginica 1.168792
最佳答案
现在可以使用 dplyr 的新 transmute
函数来简化此操作,该函数会删除除分组变量和计算变量(本例中为 V1)之外的所有列。
require(dplyr) # >= 0.3.0.2
iris %>%
group_by(Species) %>%
transmute(v1 = Sepal.Length / mean(Sepal.Length)) %>%
filter(v1 > 1.15)
#Source: local data frame [9 x 2]
#Groups: Species
#
# Species v1
#1 setosa 1.158610
#2 versicolor 1.179245
#3 versicolor 1.162399
#4 virginica 1.153613
#5 virginica 1.168792
#6 virginica 1.168792
#7 virginica 1.168792
#8 virginica 1.199150
#9 virginica 1.168792
关于r - dplyr 仅返回分组和计算列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22971446/