r - 公式中因子变量名称的安全且廉价的扩展

标签 r

如果未扩展的名称在我提供的名称向量中,我想获取针对环境评估的公式中因子变量的扩展名称。 即使我提供的名称出现在运算符(例如 as.factor)内的公式中,这也应该是无缝的。

几个例子来说明我想要什么:

示例 1:

data(iris)
lmIris = lm(Sepal.Length ~ Sepal.Width + Petal.Length + 
              Petal.Width + Species,  data = iris)

namesFactorExpansion = 
  paste0('Species', levels(iris$Species), sep = '')
namesFactorExpansion

输出是

[1] "Speciessetosa" "Speciesversicolor" "Speciesvirginica"

例子2:

data(airquality)
lm(Ozone ~ Solar.R + Wind + Temp + as.factor(Month), 
   data = airquality)
namesFactorExpansion = 
  paste0('as.factor(Month)', levels(as.factor(airquality$Month)), sep = '')
namesFactorExpansion

这种情况下的输出是

[1] "as.factor(Month)5" "as.factor(Month)6" "as.factor(Month)7"
[4] "as.factor(Month)8" "as.factor(Month)9"

请注意我必须进行不同的处理以适应公式中的 as.factor

动机:我已经在编写的函数中调用了 model.frame。我需要这个变量名扩展来处理我的函数的不同形式参数,它采用变量名,而无需再次调用 model.frame

因此,举一个简化的例子,这是一个接受公式、数据集和变量名称向量的函数,并且应该能够返回与上述相同的输出。

fnGetFactorExpansion = function(formula, data, partial) {
  # FUN STUFF GOES HERE
}

fnGetFactorExpansion(Sepal.Length ~ Sepal.Width + Petal.Length + 
                       Petal.Width + Species,  data = iris,
                     partial = 'Species')
## [1] "Speciessetosa"     "Speciesversicolor" "Speciesvirginica" 

fnGetFactorExpansion(Ozone ~ Solar.R + Wind + Temp + as.factor(Month), 
                     data = airquality,
                     partial = 'Month')
## [1] "as.factor(Month)5" "as.factor(Month)6" "as.factor(Month)7"
## [4] "as.factor(Month)8" "as.factor(Month)9"

问题:

  1. 是否有执行此操作的函数或程序包?
  2. 是否有一种无缝的方式来处理这个问题而无需进行明确的案例管理?

最佳答案

由于这些名称是由 lm 创建的(形成系数的名称),我使用了 debug(lm) 并逐步查看它们的创建位置。上线了

x <- model.matrix(mt, mf, contrasts)

然后我逐步执行了 model.matrix.default,这让我走到了这条线

ans <- .Internal(model.matrix(t, data))

所以名称是用 C 代码设置的。使用 Google 进行快速互联网搜索

site:https://svn.r-project.org/R filetype:c model.matrix

找到这个文件

http://svn.r-project.org/R/trunk/src/library/stats/src/model.c

在此文件中搜索“名称”使我找到了填充名称的逻辑。你想要在行之后循环

SET_STRING_ELT(xnames, k++, mkChar("(Intercept)"));

当然,直接复用C代码比较麻烦,所以我建议尝试调用R级别的model.matrix来生成名字。

关于r - 公式中因子变量名称的安全且廉价的扩展,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20737249/

相关文章:

r - 使用 R 微基准测试和 system.time 有什么区别?

r - 在 R 中的简单 X-Y 图上叠加椭圆

R - ggplot2 - 使用栅格作为灰度 basemap

R 查找文件创建时间

r - 计算包含 NA 的向量

r - Markdown表到R中的数据框

根据规则删除多列和多行中的重复项

python - Rpy2 在安装时找不到我的 R 库

r - 使用dplyr的summarise_each每个函数返回一行?

r - 将字符附加到数据框中列中的特定位置