r - 之间有什么区别。和.data?

标签 r dplyr tidyeval

我正在尝试对将点(“。”)与dplyr一起使用以及将.data代词与dplyr一起使用进行更深入的了解。我编写的激发这篇文章的代码看起来像这样:

cat_table <- tibble(
  variable = vector("character"), 
  category = vector("numeric"), 
  n        = vector("numeric")
) 

for(i in c("cyl", "vs", "am")) {
  cat_stats <- mtcars %>% 
    count(.data[[i]]) %>% 
    mutate(variable = names(.)[1]) %>%
    rename(category = 1)
  
  cat_table <- bind_rows(cat_table, cat_stats)
}
# A tibble: 7 x 3
  variable category     n
  <chr>       <dbl> <dbl>
1 cyl             4    11
2 cyl             6     7
3 cyl             8    14
4 vs              0    18
5 vs              1    14
6 am              0    19
7 am              1    13
该代码执行了我想要的操作,而实际上并不是该问题的重点。我只是提供它作为背景。
我正在尝试更深入地了解它为什么执行我想要的操作。更具体地说,为什么我不能互换使用..data。我已经读过Programming with dplyr文章,但是我想我想..data都表示“我们到此为止的结果。”但是,似乎我在简化关于它们如何工作的思维模型,因为当我在下面的.data中使用names()时出现错误:
mtcars %>% 
  count(.data[["cyl"]]) %>% 
  mutate(variable = names(.data)[1])
Error: Problem with `mutate()` input `variable`.
x Can't take the `names()` of the `.data` pronoun
ℹ Input `variable` is `names(.data)[1]`.
Run `rlang::last_error()` to see where the error occurred.
当我在.中使用count()时,我得到了意外的结果:
mtcars %>% 
  count(.[["cyl"]]) %>% 
  mutate(variable = names(.)[1])
  .[["cyl"]]  n   variable
1          4 11 .[["cyl"]]
2          6  7 .[["cyl"]]
3          8 14 .[["cyl"]]
我怀疑它与以下内容有关:“请注意,.data不是数据框架;它是一种特殊的构造,代词,它允许您直接使用.data $ x或间接使用.data [访问当前变量。 [var]]。不要指望其他功能可以使用它,”“使用dplyr编程”一文。这告诉我.data不是什么-数据帧-但是,我仍然不确定.data是什么以及它与.有何不同。
我试图这样弄清楚:
mtcars %>% 
  count(.data[["cyl"]]) %>% 
  mutate(variable = list(.data))
但是,结果<S3: rlang_data_pronoun>对我而言并不意味着任何可以帮助我理解的东西。如果外面有人对此有更好的了解,我将不胜感激。谢谢!

最佳答案

在前面,我认为.data的意图有些困惑,直到人们也考虑了它的同级代词.env
.magrittr::%>%设置和使用的。因为dplyr重新导出了它,所以它就在那里。每当您引用它时,它都是一个真实的对象,因此names(.)nrow(.)等均可按预期工作。它的确反射(reflect)了管道中到目前为止的数据。
另一方面,.data是在rlang中定义的,目的是消除符号解析的歧义。与.env一起,它使您可以清楚地知道要解析特定符号的位置(预期有歧义时)。从 ?.data 来看,我认为这是一个明确的对比:

disp <- 10
mtcars %>% mutate(disp = .data$disp * .env$disp)
mtcars %>% mutate(disp = disp * disp)
但是,如帮助页面中所述,.data(和.env)只是一个“代词”(我们有动词,所以现在我们也有了代词),因此它只是一个指针,用于解释符号应位于的整洁内部解决。这只是种提示。
所以你的陈述

both . and .data just mean "our result up to this point in the pipeline."


是不正确的:.代表到目前为止的数据,.data只是内部的声明性提示。

考虑另一种思考.data的方法:假设我们有两个函数完全消除了引用符号所针对的环境的歧义:
  • get_internally,此符号必须始终引用列名,如果该列不存在,它将不与封闭环境联系;和
  • get_externally,此符号必须始终在封闭环境中引用变量/对象,它将永远不会与列匹配。

  • 在这种情况下,翻译以上示例,可能会使用
    disp <- 10
    mtcars %>%
      mutate(disp = get_internally(disp) * get_externally(disp))
    
    在这种情况下,get_internally不是框架似乎更为明显,因此您无法调用names(get_internally)并期望它做有意义的事情(而不是NULL)。就像names(mutate)
    因此,请勿将.data视为对象,而应将其视为消除符号环境歧义的机制。我认为它使用的$既简洁又易于使用,并且绝对具有误导性:即使它被当作list之类或environment之类,它也不是。
    顺便说一句:可以为$编写任何S3方法,使任何分类的对象看起来像框架/环境:
    `$.quux` <- function(x, nm) paste0("hello, ", nm, "!")
    obj <- structure(0, class = "quux")
    obj$r2evans
    # [1] "hello, r2evans!"
    names(obj)
    # NULL
    
    (存在$访问器并不总是表示该对象是框架/环境。)

    关于r - 之间有什么区别。和.data?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63399011/

    相关文章:

    r - R中 SumIfs() 的向量

    在 mutate 语句中动态引用列名 - dplyr

    r - 可以 "save"dplyr函数供以后使用吗?

    r - 列表输出被截断 - 如何在 R 中使用 str() 扩展列出的变量

    r - r中的季度增长计算

    r - 无法找到加载了 dplyr 的函数 "%<>%"

    r - 如何从 tibble 中删除非缺失值与其他行中的值子集匹配的行?

    r - 连接quosures和字符串

    r - 使用具有不确定数量的列的 replace_na()

    r - ggplot2 错误 : Mapping a variable to y and also using stat ="bin". 来自 'Elegant Graphics for Data Analysis' 的示例