r - 从 data.frame 迭代计算 F 统计数据,特定列具有要比较的类别

标签 r dataframe

我有一个过于简化的 data.frame,看起来像这样(真正的 data.frame 在“类”列中有 > 10 个类和 > 1000 行):

Bin    Class       Var      n
0.1    benign      0.04     15
0.1    damaging    0.3      14
0.1    all         0.0006   16
0.2    benign      0.1      13
0.2    damaging    0.04     16
0.2    all         0.03     10
0.3    benign      0.07     8
0.3    damaging    0.06     12
0.3    all         0.1      10

对于“Bin”中的每个值,我想使用相应的方差(“Var”列)和样本大小计算“所有”、“良性”和“破坏性”(“Class”列)之间的 F 统计量(“n”列)。作为输出,对于“所有与良性”和“所有与破坏性”比较,我会得到一个观察到的 F 统计量 (Obs_F)、一个预期的 F 统计量 (Exp_F) 和一个 p 值。

所有与良性的示例,Bin“0.1”,以及相应的公式:

Obs_F = 0.04/0.0006 # higher Var/lower Var
Exp_F = qf(.95, df1= 15 , df2 = 16) # df1 and df2 = "n" of higher and lower Var, respectively
p-value = pf(Obs_F, df1= 15 , df2 = 16 ) # df1 and df2 = "n" of higher and lower Var, respectively

# I suspect using ifelse() function is a good way of sorting the highest vs lower Var and degrees of freedom (df1 and df2). 

我希望获得如下所示的输出 data.frame:

Bin  Comparison        Obs_F    Exp_F   p-value
0.1  all_vs_benign      …        …        …
0.1  all_vs_damaging    …        …        …
0.2  all_vs_benign      …        …        …
0.2  all_vs_damaging    …        …        …
0.3  all_vs_benign      …        …        …
0.3  all_vs_damaging    …        …        …

我尝试过使用 dplyr、聚合和类似函数,但到目前为止,我一次只能计算 F stats 1。

最佳答案

这是一个基于 R 的想法,使用 Mapmapply。首先,我们需要创建一个函数来返回您想要的结果。我们在 Class 上拆分原始数据框并创建第二个函数 (fun2) 以 Map 第一个 fun1 到那个名单。然后下一步是创建一个包含所有兴趣组合的矩阵。最后,使用 mapply 将函数应用于矩阵。

fun1 <- function(d1, d2){
  Obs_F <- pmax(d1$Var, d2$Var)/pmin(d1$Var, d2$Var)
  dd <- rbind(d1, d2)
  n_min <- dd$n[dd$Var == pmin(d1$Var, d2$Var)]
  n_max <- dd$n[dd$Var == pmax(d1$Var, d2$Var)]
  Exp_F <- qf(.95, df1= n_min, df2 = n_max)
  p_value <- pf(Obs_F, df1= n_min, df2 = n_max)
  return(data.frame(Obs_F, Exp_F, p_value, stringsAsFactors = FALSE))
}

l1 <- split(df, df$Class)
fun2 <- function(x, y){ Map(fun1, l1[x], l1[y])}

m1 <- combn(1:length(l1), 2)[,1:length(l1)-1] 

final_list <- mapply(fun2, m1[1,], m1[2,])

#tidy up to required data frame
final_df <- do.call(rbind, c(final_list, make.row.names = FALSE))
final_df$Bin <- rep(unique(df$Bin), 2) 
final_df <- final_df[order(final_df$Bin),]
final_df$Comparison <- rep(c('all_vs_benign', 'all_vs_damaging'), length(unique(df$Bin)))

final_df
#       Obs_F    Exp_F   p_value Bin      Comparison
#1  66.666667 2.352223 1.0000000 0.1   all_vs_benign
#4 500.000000 2.373318 1.0000000 0.1 all_vs_damaging
#2   3.333333 2.671024 0.9772730 0.2   all_vs_benign
#5   1.333333 2.493513 0.7067062 0.2 all_vs_damaging
#3   1.428571 3.071658 0.7068978 0.3   all_vs_benign
#6   1.666667 2.753387 0.8009820 0.3 all_vs_damaging

关于r - 从 data.frame 迭代计算 F 统计数据,特定列具有要比较的类别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42304924/

相关文章:

r - 如何在 igraph 中对社区集群内的边缘进行着色

r - 将 yz- 和 xz-grid 添加到 scatterplot3d

python - 通过相邻行的差异过滤 pandas 数据框

python - 在 pandas 中将一列连接到另一列的末尾后获取列的平均值

r - 计算列中连续重复项的数量

根据 R 中的特定标准替换数据框的值

r - 如何按小时计算一段时间内的平均值?

r - 如何使 flextable 适合 word_document 输出中侧边框的宽度? Markdown

python - 为单个 Pandas 列中的值创建虚拟列并将其分组为单行

r - 在我的数据框中以其他列为条件填充一列,并使用第三列中的值