R:按组对 NA 进行插值

我想在数据帧的变量中执行线性插值，其中考虑到:1)两点之间的时间差，2)获取数据的时刻以及3)进行测量的个人变量。

例如在下一个数据帧中:

 df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
            Individuals=c(1,1,1,1,1,1,1,2,2,2),
            Value=c(1, 2, 3, NA, 5, NA, 7, 5, NA, 7))
  df

我想获得:

 result <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                Individuals=c(1,1,1,1,1,1,1,2,2,2),
                Value=c(1, 2, 3, 4, 5, 6, 7, 5, 5.5, 6))
 result

我不能专门使用包zoo的函数na.approx，因为所有观察结果都不是连续的，一些观察结果属于一个个体，而其他观察结果属于其他个体。原因是因为如果第二个人第一次观察到 NA 并且我会专门使用函数 na.approx，我将使用来自 individual==1 插入 individual==2 的 NA(例如下一个数据帧会有这样的错误)

  df_2 <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                Individuals=c(1,1,1,1,1,1,1,2,2,2),
                Value=c(1, 2, 3, NA, 5, NA, 7, NA, 5, 7))
  df_2

我尝试使用包 zoo 和 dplyr:

library(dplyr)
library(zoo)
proof <- df %>%
  group_by(Individuals) %>%
  na.approx(df$Value)

但我无法在 zoo 对象中执行 group_by 。

您知道如何按组在一个变量中插入 NA 值吗？

提前致谢，

最佳答案

使用data.frame而不是cbind来创建数据。 cbind 返回一个矩阵，但您需要 dplyr 的数据框。然后在 mutate 中使用 na.approx。我已经注释掉了 group_by，因为您没有在数据中提供分组变量，但是一旦您将分组变量添加到数据框中，该方法就应该可以工作。

df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
            Individuals=c(1,1,1,1,1,1,1,2,2,2),
            Value=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10))

library(dplyr)
library(zoo)

df %>%
  group_by(Individuals) %>%
  mutate(ValueInterp = na.approx(Value, na.rm=FALSE))

   time Individuals Value ValueInterp
1     1           1    NA          NA
2     2           1     2           2
3     3           1     3           3
4     4           1    NA           4
5     5           1     5           5
6     6           1    NA           6
7     7           1     7           7
8     1           2     8           8
9     2           2    NA           9
10    3           2    10          10

更新:要插入多列，我们可以使用 mutate_at。这是一个包含两个值列的示例。我们使用 mutate_at 在列名称中包含 “Value” 的所有列上运行 na.approx。 list(interp=na.approx) 告诉 mutate_at 通过运行 na.approx 并添加 interp 生成新的列名称> 作为后缀来生成新的列名称:

df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                 Individuals=c(1,1,1,1,1,1,1,2,2,2),
                 Value1=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10),
                 Value2=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10)*2)

df %>%
  group_by(Individuals) %>%
  mutate_at(vars(matches("Value")), list(interp=na.approx), na.rm=FALSE)

    time Individuals Value1 Value2 Value1_interp Value2_interp
   <dbl>       <dbl>  <dbl>  <dbl>         <dbl>         <dbl>
 1     1           1     NA     NA            NA            NA
 2     2           1      2      4             2             4
 3     3           1      3      6             3             6
 4     4           1     NA     NA             4             8
 5     5           1      5     10             5            10
 6     6           1     NA     NA             6            12
 7     7           1      7     14             7            14
 8     1           2      8     16             8            16
 9     2           2     NA     NA             9            18
10     3           2     10     20            10            20

如果您不想保留原始的、未插值的列，您可以这样做:

df %>%
  group_by(Individuals) %>%
  mutate_at(vars(matches("Value")), na.approx, na.rm=FALSE)

关于R:按组对 NA 进行插值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33696795/

R:按组对 NA 进行插值

上一篇：java - 如何使用 CXF.xml 更改 org.apache.cxf.stax.maxTextLength

下一篇：fabricjs - 如何在Fabric.js中获取多边形点