r - dplyr 友好的用户函数，可与 join 函数一起使用

我所做的工作涉及在一个关键查找变量上合并来自不同来源的多个数据库。该变量是一个字符串变量，并且通常根据数据源(即“New York City”、“City of New York”)有多种不同的拼写方式。

我编写了一个简单的函数来清理每个数据集中的查找变量，并以这种方式使用它:

clean.names <- function(x){
  x %>% 
    str_remove_all('[:punct:]') %>% 
    str_to_lower() %>% 
    str_squish() %>% 
    str_trim()
}

#df_1 and df_2 are dataframes, with variables key that I use to merge. 
df_1 %>% 
  mutate(clean_name = clean.names(key1)) %>% 
  left_join(df_2 %>% 
              mutate(clean_name = clean.names(key2)), 
            by = 'clean_name')

这个函数可以很好地完成它的预期任务。不过，代码有点冗长。我的问题是:如何创建一个与 dplyr 一起使用的函数(即没有引号等)，产生与上面相同的效果？我希望它采用真正的 dplyr 形式，并作为连接函数中的包装器。我已经尝试过，但没有成功，请参见此处:

clean.names <- function(x =df, y = merge.vary){ # function adds
  x$merge.vary <- y %>%                         # a new variable
    str_remove_all('[:punct:]') %>%             # to existing dataframe
    str_to_lower() %>% 
    str_squish() %>% 
    str_trim()
}


clean.names(df_1, key1) %>%         # then use the function as a wrapper
  left_join(clean.names(df_2, key2))# for the dplyr join functions

有办法做到这一点吗？我想要的是一个 dplyr 式的作用函数，如下所示:函数(数据帧，变量)。谢谢。

最佳答案

您可以使用rlang::ensym()捕获变量名称并将其直接传递给mutate_at:

library(tidyverse)
clean.names2 <- function( .df, .var ) {
  f <- compose( partial(str_remove_all, pattern='[:punct:]'), 
                 str_to_lower, str_squish, str_trim )
  .df %>% mutate_at( vars(!!ensym(.var)), f )
}

该函数适用于带引号和不带引号的变量名称:

X <- tibble( Cities = c("  New York City, NY", "Denver, CO;;") )
clean.names2( X, Cities )
# # A tibble: 2 x 1
#   Cities          
#   <chr>           
# 1 new york city ny
# 2 denver co       

clean.names2( X, "Cities" )  ## equivalent

简要说明:

第一行通过将 str_remove_all、str_to_lower、str_squish、str_trim 串在一起并使用来创建复合函数partial() 将预先指定的值分配给 str_remove_all 的 pattern 参数。生成的函数 f 与原始 clean.names 相同。 (我只是试图使 clean.names2 自包含。)

第二行将新的复合函数 f (或等效地，原始 clean.names)应用到 .df 中的单个列使用mutate_at。该列是使用两种 tidyverse 机制指定的。第一个是 vars()，它允许用户指定带或不带引号的列名。例如，以下两行是等效的:

mydf %>% mutate_at( vars("mycolumn"), myfunction )  # vars can be dropped here
mydf %>% mutate_at( vars(mycolumn), myfunction )

第二种机制属于处理quasiquoatation的函数类。，允许程序员直接使用未计算的表达式，包括函数用户提供的表达式。特别是，我们使用 ensym 捕获调用环境提供给函数的符号，并将该符号传递给 vars。 !! 很重要，因为它告诉 vars 继续计算表达式 ensym(.var) 并将结果用作列姓名。如果没有 !!，vars 将尝试查找名为“ensym(.var)”的列。

关于r - dplyr 友好的用户函数，可与 join 函数一起使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54814192/

r - dplyr 友好的用户函数，可与 join 函数一起使用

上一篇：r - 在 R dplyr 中，为什么在 count() 之后需要 ungroup() ？

下一篇：sorting - 按反转值对 Map<String, Long> 进行排序