r - 之间有什么区别。和.data？

我正在尝试对将点(“。”)与dplyr一起使用以及将.data代词与dplyr一起使用进行更深入的了解。我编写的激发这篇文章的代码看起来像这样:

cat_table <- tibble(
  variable = vector("character"), 
  category = vector("numeric"), 
  n        = vector("numeric")
) 

for(i in c("cyl", "vs", "am")) {
  cat_stats <- mtcars %>% 
    count(.data[[i]]) %>% 
    mutate(variable = names(.)[1]) %>%
    rename(category = 1)
  
  cat_table <- bind_rows(cat_table, cat_stats)
}

# A tibble: 7 x 3
  variable category     n
  <chr>       <dbl> <dbl>
1 cyl             4    11
2 cyl             6     7
3 cyl             8    14
4 vs              0    18
5 vs              1    14
6 am              0    19
7 am              1    13

该代码执行了我想要的操作，而实际上并不是该问题的重点。我只是提供它作为背景。
我正在尝试更深入地了解它为什么执行我想要的操作。更具体地说，为什么我不能互换使用.和.data。我已经读过Programming with dplyr文章，但是我想我想.和.data都表示“我们到此为止的结果。”但是，似乎我在简化关于它们如何工作的思维模型，因为当我在下面的.data中使用names()时出现错误:

mtcars %>% 
  count(.data[["cyl"]]) %>% 
  mutate(variable = names(.data)[1])

Error: Problem with `mutate()` input `variable`.
x Can't take the `names()` of the `.data` pronoun
ℹ Input `variable` is `names(.data)[1]`.
Run `rlang::last_error()` to see where the error occurred.

当我在.中使用count()时，我得到了意外的结果:

mtcars %>% 
  count(.[["cyl"]]) %>% 
  mutate(variable = names(.)[1])

  .[["cyl"]]  n   variable
1          4 11 .[["cyl"]]
2          6  7 .[["cyl"]]
3          8 14 .[["cyl"]]

我怀疑它与以下内容有关:“请注意，.data不是数据框架；它是一种特殊的构造，代词，它允许您直接使用.data $ x或间接使用.data [访问当前变量。 [var]]。不要指望其他功能可以使用它，”“使用dplyr编程”一文。这告诉我.data不是什么-数据帧-但是，我仍然不确定.data是什么以及它与.有何不同。
我试图这样弄清楚:

mtcars %>% 
  count(.data[["cyl"]]) %>% 
  mutate(variable = list(.data))

但是，结果<S3: rlang_data_pronoun>对我而言并不意味着任何可以帮助我理解的东西。如果外面有人对此有更好的了解，我将不胜感激。谢谢!

最佳答案

在前面，我认为.data的意图有些困惑，直到人们也考虑了它的同级代词.env。
点.是magrittr::%>%设置和使用的。因为dplyr重新导出了它，所以它就在那里。每当您引用它时，它都是一个真实的对象，因此names(.)，nrow(.)等均可按预期工作。它的确反射(reflect)了管道中到目前为止的数据。
另一方面，.data是在rlang中定义的，目的是消除符号解析的歧义。与.env一起，它使您可以清楚地知道要解析特定符号的位置(预期有歧义时)。从 ?.data 来看，我认为这是一个明确的对比:

disp <- 10
mtcars %>% mutate(disp = .data$disp * .env$disp)
mtcars %>% mutate(disp = disp * disp)

但是，如帮助页面中所述，.data(和.env)只是一个“代词”(我们有动词，所以现在我们也有了代词)，因此它只是一个指针，用于解释符号应位于的整洁内部解决。这只是种提示。
所以你的陈述

both . and .data just mean "our result up to this point in the pipeline."

是不正确的:.代表到目前为止的数据，.data只是内部的声明性提示。

考虑另一种思考.data的方法:假设我们有两个函数完全消除了引用符号所针对的环境的歧义:

get_internally，此符号必须始终引用列名，如果该列不存在，它将不与封闭环境联系；和

get_externally，此符号必须始终在封闭环境中引用变量/对象，它将永远不会与列匹配。

在这种情况下，翻译以上示例，可能会使用

disp <- 10
mtcars %>%
  mutate(disp = get_internally(disp) * get_externally(disp))

在这种情况下，get_internally不是框架似乎更为明显，因此您无法调用names(get_internally)并期望它做有意义的事情(而不是NULL)。就像names(mutate)。
因此，请勿将.data视为对象，而应将其视为消除符号环境歧义的机制。我认为它使用的$既简洁又易于使用，并且绝对具有误导性:即使它被当作list之类或environment之类，它也不是。
顺便说一句:可以为$编写任何S3方法，使任何分类的对象看起来像框架/环境:

`$.quux` <- function(x, nm) paste0("hello, ", nm, "!")
obj <- structure(0, class = "quux")
obj$r2evans
# [1] "hello, r2evans!"
names(obj)
# NULL

(存在$访问器并不总是表示该对象是框架/环境。)

关于r - 之间有什么区别。和.data？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63399011/

r - 之间有什么区别。和.data？

上一篇：regex - 提取包含bash中数字的路径的一部分

下一篇：macos - NSTableView 在第一行上方有多余的空间