我正在尝试对将点(“。”)与dplyr
一起使用以及将.data
代词与dplyr
一起使用进行更深入的了解。我编写的激发这篇文章的代码看起来像这样:
cat_table <- tibble(
variable = vector("character"),
category = vector("numeric"),
n = vector("numeric")
)
for(i in c("cyl", "vs", "am")) {
cat_stats <- mtcars %>%
count(.data[[i]]) %>%
mutate(variable = names(.)[1]) %>%
rename(category = 1)
cat_table <- bind_rows(cat_table, cat_stats)
}
# A tibble: 7 x 3
variable category n
<chr> <dbl> <dbl>
1 cyl 4 11
2 cyl 6 7
3 cyl 8 14
4 vs 0 18
5 vs 1 14
6 am 0 19
7 am 1 13
该代码执行了我想要的操作,而实际上并不是该问题的重点。我只是提供它作为背景。我正在尝试更深入地了解它为什么执行我想要的操作。更具体地说,为什么我不能互换使用
.
和.data
。我已经读过Programming with dplyr文章,但是我想我想.
和.data
都表示“我们到此为止的结果。”但是,似乎我在简化关于它们如何工作的思维模型,因为当我在下面的.data
中使用names()
时出现错误:mtcars %>%
count(.data[["cyl"]]) %>%
mutate(variable = names(.data)[1])
Error: Problem with `mutate()` input `variable`.
x Can't take the `names()` of the `.data` pronoun
ℹ Input `variable` is `names(.data)[1]`.
Run `rlang::last_error()` to see where the error occurred.
当我在.
中使用count()
时,我得到了意外的结果:mtcars %>%
count(.[["cyl"]]) %>%
mutate(variable = names(.)[1])
.[["cyl"]] n variable
1 4 11 .[["cyl"]]
2 6 7 .[["cyl"]]
3 8 14 .[["cyl"]]
我怀疑它与以下内容有关:“请注意,.data不是数据框架;它是一种特殊的构造,代词,它允许您直接使用.data $ x或间接使用.data [访问当前变量。 [var]]。不要指望其他功能可以使用它,”“使用dplyr编程”一文。这告诉我.data
不是什么-数据帧-但是,我仍然不确定.data
是什么以及它与.
有何不同。我试图这样弄清楚:
mtcars %>%
count(.data[["cyl"]]) %>%
mutate(variable = list(.data))
但是,结果<S3: rlang_data_pronoun>
对我而言并不意味着任何可以帮助我理解的东西。如果外面有人对此有更好的了解,我将不胜感激。谢谢!
最佳答案
在前面,我认为.data
的意图有些困惑,直到人们也考虑了它的同级代词.env
。
点.
是magrittr::%>%
设置和使用的。因为dplyr
重新导出了它,所以它就在那里。每当您引用它时,它都是一个真实的对象,因此names(.)
,nrow(.)
等均可按预期工作。它的确反射(reflect)了管道中到目前为止的数据。
另一方面,.data
是在rlang
中定义的,目的是消除符号解析的歧义。与.env
一起,它使您可以清楚地知道要解析特定符号的位置(预期有歧义时)。从 ?.data
来看,我认为这是一个明确的对比:
disp <- 10
mtcars %>% mutate(disp = .data$disp * .env$disp)
mtcars %>% mutate(disp = disp * disp)
但是,如帮助页面中所述,.data
(和.env
)只是一个“代词”(我们有动词,所以现在我们也有了代词),因此它只是一个指针,用于解释符号应位于的整洁内部解决。这只是种提示。所以你的陈述
both
.
and.data
just mean "our result up to this point in the pipeline."
是不正确的:
.
代表到目前为止的数据,.data
只是内部的声明性提示。考虑另一种思考
.data
的方法:假设我们有两个函数完全消除了引用符号所针对的环境的歧义:get_internally
,此符号必须始终引用列名,如果该列不存在,它将不与封闭环境联系;和get_externally
,此符号必须始终在封闭环境中引用变量/对象,它将永远不会与列匹配。 在这种情况下,翻译以上示例,可能会使用
disp <- 10
mtcars %>%
mutate(disp = get_internally(disp) * get_externally(disp))
在这种情况下,get_internally
不是框架似乎更为明显,因此您无法调用names(get_internally)
并期望它做有意义的事情(而不是NULL
)。就像names(mutate)
。因此,请勿将
.data
视为对象,而应将其视为消除符号环境歧义的机制。我认为它使用的$
既简洁又易于使用,并且绝对具有误导性:即使它被当作list
之类或environment
之类,它也不是。顺便说一句:可以为
$
编写任何S3方法,使任何分类的对象看起来像框架/环境:`$.quux` <- function(x, nm) paste0("hello, ", nm, "!")
obj <- structure(0, class = "quux")
obj$r2evans
# [1] "hello, r2evans!"
names(obj)
# NULL
(存在$
访问器并不总是表示该对象是框架/环境。)
关于r - 之间有什么区别。和.data?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63399011/