r - 通过列索引而不是名称将函数应用于data.table列的子集

标签 r data.table multiple-columns indices

我正在尝试将功能应用于大型data.table中的一组列,而无需单独引用每个列。

a <- data.table(
  a=as.character(rnorm(5)),
  b=as.character(rnorm(5)),
  c=as.character(rnorm(5)),
  d=as.character(rnorm(5))
)
b <- c('a','b','c','d')

使用上面的MWE,这是:
a[,b=as.numeric(b),with=F]

可以,但是:
a[,b[2:3]:=data.table(as.numeric(b[2:3])),with=F]

不起作用。将as.numeric函数仅应用于a的第2列和第3列而不单独引用它们的正确方法是什么。

(在实际数据集中有数十列,因此不切实际)

最佳答案

惯用的方法是使用.SD.SDcols
您可以通过包装在()中来强制在父框架​​中评估RHS

a[, (b) := lapply(.SD, as.numeric), .SDcols = b]

对于专栏2:3
a[, 2:3 := lapply(.SD, as.numeric), .SDcols = 2:3]

要么
mysubset <- 2:3
a[, (mysubset) := lapply(.SD, as.numeric), .SDcols = mysubset]

关于r - 通过列索引而不是名称将函数应用于data.table列的子集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16783598/

相关文章:

r - 打印两个字符对象中的公共(public)对象

r - 在 ggplot 上显示计数

r - 从具有小多边形的栅格中提取()数据 - 舍入权重太小

r - 将 fread 函数读入的数据转换为 data.frame

r - 更新 data.table 中的多列

css - Bootstrap 3 网格 : column under column inside one row

R:预测最高结果的概率

r - data.table lapply .SD 随着列数的增加而大幅减慢

python - Pandas 有条件创建新的数据框列

html - 是否可以根据父级中 div 的数量调整父级中 div 的大小?