r - 将逐元素函数应用于 data.table 列

标签 r data.table

我有一个 data.table,我想对某些列应用一个函数(例如粘贴、求和)。例如:

library(data.table)
x = as.data.table(iris)
columnsSelected = c("Sepal.Width", "Sepal.Length")
x[, A := Sepal.Width + Sepal.Length] # this yields the desired result, but not in the way I want.
x[, A := sum(columnsSelected)] # this does not execute
x[, A := sum(get(columnsSelected))] # this does not yield the desired result
x[, A := sum(.SD), .SDcols = columnsSelected] # this does not yield the desired result
x[, A := do.call(sum, .SD), .SDcols = columnsSelected] # same as above

我很茫然。建议使用 Get() here ,但它似乎不适用于多列。关于 data.table 的使用的另一个有趣的讨论是 here ,但 .SD.SDcols 似乎仅适用于聚合。

任何帮助将不胜感激。

最佳答案

如果你想要一个元素明智的加法,那么只需 + 而不是 sum ,它将向量的所有元素加在一起。此外,由于 + 只接受两个参数,因此您不能使用 do.call 来处理两列以上的内容,您将需要 Reduce() 来代替:

x[, A := Reduce("+", .SD), .SDcols = columnsSelected]

#      Sepal.Length Sepal.Width Petal.Length Petal.Width   Species   A
#   1:          5.1         3.5          1.4         0.2    setosa 8.6
#   2:          4.9         3.0          1.4         0.2    setosa 7.9
#   3:          4.7         3.2          1.3         0.2    setosa 7.9
#   4:          4.6         3.1          1.5         0.2    setosa 7.7
#   5:          5.0         3.6          1.4         0.2    setosa 8.6
# ---                                                                
# 146:          6.7         3.0          5.2         2.3 virginica 9.7
# 147:          6.3         2.5          5.0         1.9 virginica 8.8
# 148:          6.5         3.0          5.2         2.0 virginica 9.5
# 149:          6.2         3.4          5.4         2.3 virginica 9.6
# 150:          5.9         3.0          5.1         1.8 virginica 8.9

正如 @42 所评论的,我们看到了 do.call()Reduce() 如何使用 + 等函数>paste() 通过将 columnsSelected 变量扩展为三列:

columnsSelected = c("Sepal.Width", "Sepal.Length", "Petal.Length")

其中 do.call("+", ...) 给出了预期的错误,因为“+”是一个二元运算符并且不接受两个以上的参数,而 do.call() 给它三个参数(columnsSelected 中的三列;Reduce("+", ...) 按预期工作,因为Reduce() 逐列添加,而不是像 do.call 那样一次性将所有列传递给函数。对于 pastedo.call()Reduce() 都可以工作,因为 paste() 可以接受两个或多个向量作为参数。在本例中 当您有很多列时,do.call() 效率更高,但如果您只传入两列或三列,则这里就不重要了。

x[, A := do.call(paste, .SD), .SDcols = columnsSelected]

#      Sepal.Length Sepal.Width Petal.Length Petal.Width   Species           A
#   1:          5.1         3.5          1.4         0.2    setosa 3.5 5.1 1.4
#   2:          4.9         3.0          1.4         0.2    setosa   3 4.9 1.4
#   3:          4.7         3.2          1.3         0.2    setosa 3.2 4.7 1.3
#   4:          4.6         3.1          1.5         0.2    setosa 3.1 4.6 1.5
#   5:          5.0         3.6          1.4         0.2    setosa   3.6 5 1.4
# ---                                                                        
# 146:          6.7         3.0          5.2         2.3 virginica   3 6.7 5.2
# 147:          6.3         2.5          5.0         1.9 virginica   2.5 6.3 5
# 148:          6.5         3.0          5.2         2.0 virginica   3 6.5 5.2
# 149:          6.2         3.4          5.4         2.3 virginica 3.4 6.2 5.4
# 150:          5.9         3.0          5.1         1.8 virginica   3 5.9 5.1

并且 x[, A := Reduce(paste, .SD), .SDcols = columnsSelected] 给出与 do.call() 相同的结果。

更新: 要将参数传递给 do.call()Reduce 中的函数,do.call() 会展平列表参数中的参数并获取它们就像它们是单独的一样,因此为了将参数传递给 do.call() 中的函数,我们可以将命名参数连接到列表参数,即:

x[, A := do.call(paste, c(sep = ",", .SD)), .SDcols = columnsSelected]

#      Sepal.Length Sepal.Width Petal.Length Petal.Width   Species           A
#   1:          5.1         3.5          1.4         0.2    setosa 3.5,5.1,1.4
#   2:          4.9         3.0          1.4         0.2    setosa   3,4.9,1.4
#   3:          4.7         3.2          1.3         0.2    setosa 3.2,4.7,1.3
#   4:          4.6         3.1          1.5         0.2    setosa 3.1,4.6,1.5
#   5:          5.0         3.6          1.4         0.2    setosa   3.6,5,1.4
# ---                                                                        
# 146:          6.7         3.0          5.2         2.3 virginica   3,6.7,5.2
# 147:          6.3         2.5          5.0         1.9 virginica   2.5,6.3,5
# 148:          6.5         3.0          5.2         2.0 virginica   3,6.5,5.2
# 149:          6.2         3.4          5.4         2.3 virginica 3.4,6.2,5.4
# 150:          5.9         3.0          5.1         1.8 virginica   3,5.9,5.1

另一方面,对于Reduce(),它允许您重构匿名函数,您可以通过指定sep参数创建自定义函数:

x[, A := Reduce(function(x,y) paste(x,y,sep=","), .SD), .SDcols = columnsSelected]

这再次给出与 do.call() 相同的结果。

关于r - 将逐元素函数应用于 data.table 列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40140906/

相关文章:

r - 在 data.table 中按组删除特定时间内相同的连续值

python - 为 Travis 构建同时安装 Python 和 R?

r - 理解 rowwise() 和 c_across()

随机抽样 - 矩阵

r - 使用 apply 函数填充 NA 矩阵

r - 使用 data.table 查找子组中的相同行

r - 获取 R data.table 中一行中最后一个非 NA 值的位置

java - C++ 或 Java 调用 R 脚本的 RCPP 或 RCaller 的基准测试?

r - 从 knitr 调用时 fread 的奇怪输出

r - 连接2个数据表同时汇总其中一个数据的最快方法