我有一个 data.table,我想对某些列应用一个函数(例如粘贴、求和)。例如:
library(data.table)
x = as.data.table(iris)
columnsSelected = c("Sepal.Width", "Sepal.Length")
x[, A := Sepal.Width + Sepal.Length] # this yields the desired result, but not in the way I want.
x[, A := sum(columnsSelected)] # this does not execute
x[, A := sum(get(columnsSelected))] # this does not yield the desired result
x[, A := sum(.SD), .SDcols = columnsSelected] # this does not yield the desired result
x[, A := do.call(sum, .SD), .SDcols = columnsSelected] # same as above
我很茫然。建议使用 Get()
here ,但它似乎不适用于多列。关于 data.table 的使用的另一个有趣的讨论是 here ,但 .SD
和 .SDcols
似乎仅适用于聚合。
任何帮助将不胜感激。
最佳答案
如果你想要一个元素明智的加法,那么只需 +
而不是 sum
,它将向量的所有元素加在一起。此外,由于 +
只接受两个参数,因此您不能使用 do.call
来处理两列以上的内容,您将需要 Reduce()
来代替:
x[, A := Reduce("+", .SD), .SDcols = columnsSelected]
# Sepal.Length Sepal.Width Petal.Length Petal.Width Species A
# 1: 5.1 3.5 1.4 0.2 setosa 8.6
# 2: 4.9 3.0 1.4 0.2 setosa 7.9
# 3: 4.7 3.2 1.3 0.2 setosa 7.9
# 4: 4.6 3.1 1.5 0.2 setosa 7.7
# 5: 5.0 3.6 1.4 0.2 setosa 8.6
# ---
# 146: 6.7 3.0 5.2 2.3 virginica 9.7
# 147: 6.3 2.5 5.0 1.9 virginica 8.8
# 148: 6.5 3.0 5.2 2.0 virginica 9.5
# 149: 6.2 3.4 5.4 2.3 virginica 9.6
# 150: 5.9 3.0 5.1 1.8 virginica 8.9
正如 @42 所评论的,我们看到了 do.call()
和 Reduce()
如何使用 +
和 等函数>paste()
通过将 columnsSelected
变量扩展为三列:
columnsSelected = c("Sepal.Width", "Sepal.Length", "Petal.Length")
其中 do.call("+", ...)
给出了预期的错误,因为“+”是一个二元运算符并且不接受两个以上的参数,而 do.call()
给它三个参数(columnsSelected
中的三列;Reduce("+", ...)
按预期工作,因为Reduce()
逐列添加,而不是像 do.call
那样一次性将所有列传递给函数。对于 paste
,do.call()
和 Reduce()
都可以工作,因为 paste()
可以接受两个或多个向量作为参数。在本例中 当您有很多列时,do.call()
效率更高,但如果您只传入两列或三列,则这里就不重要了。
x[, A := do.call(paste, .SD), .SDcols = columnsSelected]
# Sepal.Length Sepal.Width Petal.Length Petal.Width Species A
# 1: 5.1 3.5 1.4 0.2 setosa 3.5 5.1 1.4
# 2: 4.9 3.0 1.4 0.2 setosa 3 4.9 1.4
# 3: 4.7 3.2 1.3 0.2 setosa 3.2 4.7 1.3
# 4: 4.6 3.1 1.5 0.2 setosa 3.1 4.6 1.5
# 5: 5.0 3.6 1.4 0.2 setosa 3.6 5 1.4
# ---
# 146: 6.7 3.0 5.2 2.3 virginica 3 6.7 5.2
# 147: 6.3 2.5 5.0 1.9 virginica 2.5 6.3 5
# 148: 6.5 3.0 5.2 2.0 virginica 3 6.5 5.2
# 149: 6.2 3.4 5.4 2.3 virginica 3.4 6.2 5.4
# 150: 5.9 3.0 5.1 1.8 virginica 3 5.9 5.1
并且 x[, A := Reduce(paste, .SD), .SDcols = columnsSelected]
给出与 do.call()
相同的结果。
更新:
要将参数传递给 do.call()
和 Reduce
中的函数,do.call()
会展平列表参数中的参数并获取它们就像它们是单独的一样,因此为了将参数传递给 do.call() 中的函数,我们可以将命名参数连接到列表参数,即:
x[, A := do.call(paste, c(sep = ",", .SD)), .SDcols = columnsSelected]
# Sepal.Length Sepal.Width Petal.Length Petal.Width Species A
# 1: 5.1 3.5 1.4 0.2 setosa 3.5,5.1,1.4
# 2: 4.9 3.0 1.4 0.2 setosa 3,4.9,1.4
# 3: 4.7 3.2 1.3 0.2 setosa 3.2,4.7,1.3
# 4: 4.6 3.1 1.5 0.2 setosa 3.1,4.6,1.5
# 5: 5.0 3.6 1.4 0.2 setosa 3.6,5,1.4
# ---
# 146: 6.7 3.0 5.2 2.3 virginica 3,6.7,5.2
# 147: 6.3 2.5 5.0 1.9 virginica 2.5,6.3,5
# 148: 6.5 3.0 5.2 2.0 virginica 3,6.5,5.2
# 149: 6.2 3.4 5.4 2.3 virginica 3.4,6.2,5.4
# 150: 5.9 3.0 5.1 1.8 virginica 3,5.9,5.1
另一方面,对于Reduce()
,它允许您重构匿名函数,您可以通过指定sep
参数创建自定义函数:
x[, A := Reduce(function(x,y) paste(x,y,sep=","), .SD), .SDcols = columnsSelected]
这再次给出与 do.call()
相同的结果。
关于r - 将逐元素函数应用于 data.table 列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40140906/