R:按分组变量将简单函数应用于特定列

标签 r data.table dplyr

我有一个数据集,每个人有 2 个观察值。
数据集中有 100 多个变量。
我想用相同变量的可用数据填写每个人的缺失数据。我可以使用 dplyr mutate 函数手动执行此操作,但是对于需要填充的所有变量执行此操作会很麻烦。

这是我尝试过的,但失败了:

> # Here's data example
> # https://www.dropbox.com/s/a0bc69xgxhaeguc/data_xlsc.xlsx?dl=0
> # I have already attached it to my working space
> 
> names(data)
 [1] "ID"   "Age"  "var1" "var2" "var3" "var4" "var5" "var6" "var7" "var8" "var9"
> head(data)
Source: local data frame [6 x 11]

  ID Age var1 var2  var3 var4 var5 var6  var7 var8 var9
1  1  50 27.5 1.83  92.0   NA   NA   NA    NA   NA  5.1
2  1  NA   NA   NA    NA 3.54 30.2 27.9 64.34 60.8   NA
3  2  51 33.7 1.77 105.6   NA   NA   NA    NA   NA  5.2
4  2  NA   NA   NA    NA 4.05 36.4 38.7 67.75 63.7   NA
5  3  43 26.3 1.84  89.1   NA   NA   NA    NA   NA  4.8
6  3  NA   NA   NA    NA 3.77 24.4 21.9 67.97 64.2   NA

> # As you can see above, for each person (ID) there are missing values for age and other variables.
> # I'd like to fill in missing data with the available data for each variable, for each ID
> 
> #These are the variables that I need to fill in
> desired_variables <- names(data[,2:11])
> 
> # this is my attempt that failed
> 
> data2 <- data %>% group_by(ID) %>% 
+      do(
+      for (i in seq_along(desired_variables)) {
+           i=max(i, na.rm=T)
+      }
+ )
Error: Results are not data frames at positions: 1, 2, 3

第一人称的期望输出:
  ID Age var1 var2  var3 var4 var5 var6  var7 var8 var9

1  1  50 27.5 1.83  92.0 3.54 30.2 27.9 64.34 60.8  5.1

2  1  50 27.5 1.83  92.0 3.54 30.2 27.9 64.34 60.8  5.1

最佳答案

这是一个可能的 data.table解决方案

library(data.table)  
setattr(data, "class", "data.frame") ## If your data is of `tbl_df` class
setDT(data)[, (desired_variables) := lapply(.SD, max, na.rm = TRUE), by = ID] ## you can also use `.SDcols` if you want to specify specific columns
data
#    ID Age var1 var2  var3 var4 var5 var6  var7 var8 var9
# 1:  1  50 27.5 1.83  92.0 3.54 30.2 27.9 64.34 60.8  5.1
# 2:  1  50 27.5 1.83  92.0 3.54 30.2 27.9 64.34 60.8  5.1
# 3:  2  51 33.7 1.77 105.6 4.05 36.4 38.7 67.75 63.7  5.2
# 4:  2  51 33.7 1.77 105.6 4.05 36.4 38.7 67.75 63.7  5.2
# 5:  3  43 26.3 1.84  89.1 3.77 24.4 21.9 67.97 64.2  4.8
# 6:  3  43 26.3 1.84  89.1 3.77 24.4 21.9 67.97 64.2  4.8

关于R:按分组变量将简单函数应用于特定列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31365860/

相关文章:

r - left_join 不合并所有值

r - 在 R 中创建切片树

r - 将创建新行的转换应用到 R 中的 data.table

r - 从 R 数据帧中清理 `Inf` 值

r - 如何在没有 `dplyr` 的情况下将数据附加到 `collect()` 的 PostgreSQL 表?

r - 如何将变量列表附加到 R 数据框特定行中的列表?

R ggplot2 具有 reshape (融化功能)选择性地绘制数据集

r - 从几天生成帧

r - 避免 data.table 强制 j 中的列表返回列

r - 如何使用 R 计算选项的响应百分比?