r - dplyr:将分组的 tibble 传递给自定义函数

(以下场景简化了我的实际情况)
我的数据来自村庄，我想通过村庄变量来总结结果变量。

> data
   village     A     Z      Y 
     <chr> <int> <int>   <dbl> 
 1       a     1     1   500     
 2       a     1     1   400     
 3       a     1     0   800  
 4       b     1     0   300  
 5       b     1     1   700

例如，我想仅使用村庄的 Z==z 来计算 Y 的平均值。在本例中，我希望村庄“a”有 (500 + 400)/2 = 450，村庄“b”有 700。

请注意，实际情况比较复杂，我无法直接使用 this answer ，但重点是我需要将分组的 tibble 和全局变量 (z) 传递给我的函数。

z <- 1 # z takes 0 or 1
data %>%
    group_by(village) %>% # grouping by village
    summarize(Y_village = Y_hat_village(., z)) # pass a part of tibble and a global variable

Y_hat_village <- function(data_village, z){
    # This function takes a part of tibble (`data_village`) and a variable `z`
    # Calculate the mean for a specific z in a village
    data_z <- data_village %>% filter(Z==get("z"))
    return(mean(data_z$Y))
}

但是，我发现 . 传递了整个 tibble，上面的代码为所有组返回相同的值。

最佳答案

有几件事您可以简化。一是在您的函数中:由于您向函数传递了一个值 z，因此您不需要使用 get("z")。您在传入的全局环境中有一个 z ；或者，更安全的是，将 z 值分配给具有其他名称的变量，这样就不会遇到范围问题，并将其传递给函数。在本例中，我将其称为 z_val。

library(tidyverse)

z_val <- 1

Y_hat_village2 <- function(data, z) {
  data_z <- data %>% filter(Z == z)
  return(mean(data_z$Y))
}

您可以使用 do 对每个组进行函数调用，这将为您提供一个列表列，然后取消该列的嵌套。再次注意，我将变量 z_val 传递给参数 z。

df %>%
  group_by(village) %>%
  do(y_hat = Y_hat_village2(., z = z_val)) %>%
  unnest()
#> # A tibble: 2 x 2
#>   village y_hat
#>   <chr>   <dbl>
#> 1 a         450
#> 2 b         700

但是，do 已被弃用，取而代之的是 purrr::map，我仍然无法掌握它。在这种情况下，您可以分组和嵌套，这会提供一列名为 data 的数据框，然后映射该列并再次提供 z = z_val。当您取消嵌套 y_hat 列时，您仍然拥有作为嵌套列的原始数据，因为您仍然希望访问其余列。

df %>%
  group_by(village) %>%
  nest() %>%
  mutate(y_hat = map(data, ~Y_hat_village2(., z = z_val))) %>%
  unnest(y_hat)
#> # A tibble: 2 x 3
#>   village data             y_hat
#>   <chr>   <list>           <dbl>
#> 1 a       <tibble [3 × 3]>   450
#> 2 b       <tibble [2 × 3]>   700

为了检查一切是否正常，我还传入了 z = 0 来检查 1. 范围问题，以及 2. z 的其他值是否有效。

df %>%
  group_by(village) %>%
  nest() %>%
  mutate(y_hat = map(data, ~Y_hat_village2(., z = 0))) %>%
  unnest(y_hat)
#> # A tibble: 2 x 3
#>   village data             y_hat
#>   <chr>   <list>           <dbl>
#> 1 a       <tibble [3 × 3]>   800
#> 2 b       <tibble [2 × 3]>   300

关于r - dplyr:将分组的 tibble 传递给自定义函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50928108/

r - dplyr:将分组的 tibble 传递给自定义函数

上一篇：java - 如何解决警告: References to generic type should be parameterised

下一篇：r - 使用 RSelenium 获取元素文本