R 在使用 case_when 时提供参数(R 向量化)

这是我之前提出的问题 (R apply multiple functions when large number of categories/types are present using case_when (R vectorization)) 的后续问题。不幸的是，我一直无法找出问题所在。我想我可能已经缩小了问题的根源，想看看是否有比我更了解的人可以帮助我找出解决方案。

假设我有以下数据集:

set.seed(100)
City=c("City1","City2","City2","City1")
Business=c("B","A","A","B")
ExpectedRevenue=c(35,20,15,19)
zz=data.frame(City,Business,ExpectedRevenue)

这里假设存在 2 个不同的企业，名为“A”和“B”。进一步假设存在两个不同的城市City1 和City2。我的原始数据集包含大约 20 万个观察值，涉及多个企业和大约 100 个城市。对于每个城市，我都有一个独特的预写函数来计算调整后的收入。我不想按每个观察/行运行它们，而是想使用 case_when 为相关城市运行函数(例如，对城市 1 进行观察，如果可能的话为城市 1 运行矢量化函数，然后移动到城市 2，依此类推).

为了说明的目的，假设我有以下两个城市的高度简化的函数。

#Writing the custom functions for the categories here
City1=function(full_data,observation){
  NewSet=full_data[which(full_data$City==observation$City),]
  BusinessMax = max(NewSet$ExpectedRevenue)+10*rnorm(1)
  return(BusinessMax)
}

City2=function(full_data,observation){
  NewSet=full_data[which(full_data$City==observation$City),]
  BusinessMax = max(NewSet$ExpectedRevenue)-1000*rnorm(1)
  return(BusinessMax)
}

这里的这些简单函数实质上是对城市数据进行子集化，并从预期收入中添加 (City1) 或减去 (City2) 一些随机数。 再次强调，这些简单的功能只是为了说明，并不反射(reflect)实际功能。我还手动检查，如果这些功能有效，请输入:

City1(full_data = zz,observation = zz[1,])
City1(full_data = zz,observation = zz[4,])

并得到“29.97808”和“36.31531”。请注意，在上述函数中，由于我添加或减去一个随机数，我希望在同一个城市的两个观测值得到不同的值，就像我在此处获得的那样。

最后，我尝试使用case_when来运行代码如下:

library(dplyr) #I use dplyr here
zz[,"AdjustedRevenue"] = case_when(
  zz[["City"]]=="City1"~City1(full_data=zz,observation=zz[,]),
  zz[["City"]]=="City2"~City2(full_data=zz,observation=zz[,])
)

我收到的输出如下:

   City Business ExpectedRevenue AdjustedRevenue
1 City1        B              35        43.86785
2 City2        A              20       -81.97127
3 City2        A              15       -81.97127
4 City1        B              19        43.86785

这里，对于观察 1 和 4 & 2 和 3，调整后的值是相同的。相反，我期望的是为每个观察获得不同的值(因为我为每个观察添加或删除了一些随机数；或者至少打算这样做)。根据 Martin Gal 对我上一个问题 (https://stackoverflow.com/a/62378991/3988575) 的回答，我怀疑这是由于在最后一步没有正确调用我的 City1 和 City2 函数的第二个参数。但是，我在试图弄清楚为什么以及如何解决它时有些迷茫。

如果有人能指出发生这种情况的原因以及如何修复此错误，那将非常有帮助。提前致谢!

附言我也对其他矢量化解决方案持开放态度。我是矢量化的新手，没有太多经验，如果有任何建议，我将不胜感激。

最佳答案

将 City 函数转换为 dplyr。如果 CityMaster 对于最终函数来说过于简化，则可以将 mer 移动到 case_when 中(如果适用)。如果一个新城市被添加到数据中，那么它将返回 NA 直到一个案例被定义。

library(dplyr)
CityMaster <- function(data, city) {
  mer <- data %>%
    filter(City == city) %>%
    pull(ExpectedRevenue) %>%
    max()
  case_when(city == 'City1' ~ mer + 10 * rnorm(1),
            city == 'City2' ~ mer - 1000 * rnorm(1),
            TRUE ~ NA_real_)
}

set.seed(100)
zz %>%
  rowwise() %>%
  mutate(AdjustedRevenue = CityMaster(., City))

# A tibble: 4 x 4
# Rowwise: 
  City  Business ExpectedRevenue AdjustedRevenue
  <chr> <chr>              <dbl>           <dbl>
1 City1 B                     35            30.0
2 City2 A                     20          -867. 
3 City2 A                     15          -299. 
4 City1 B                     19            29.2

打破城市功能

City1 <- function(data, city) {
  data %>%
    filter(City == city) %>%
    pull(ExpectedRevenue) %>%
    max() + 10 * rnorm(1)
}

City2 <- function(data, city) {
  data %>%
    filter(City == city) %>%
    pull(ExpectedRevenue) %>%
    max() - 1000 * rnorm(1)
}

set.seed(100)
zz %>%
  rowwise() %>%
  mutate(AdjustRevenue = case_when(City == 'City1' ~ City1(., City),
                                   City == 'City2' ~ City2(., City),
                                   TRUE ~ NA_real_))

关于R 在使用 case_when 时提供参数(R 向量化)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62435406/

R 在使用 case_when 时提供参数(R 向量化)

上一篇：swift - 在 DateFormatter 中使用 NumberFormatter

下一篇：python - 限制 MXNet GPU 内存使用