r - Beta 回归的 DFFIT

标签 r outliers

我正在尝试计算 GLM 的 DFFITS,其中响应遵循 Beta 分布。通过使用 betareg R 包。但我认为这个包不支持 influence.measures() 因为通过使用 dffits() 代码

require(betareg)
df<-data("ReadingSkills")
y<-ReadingSkills$accuracy
n<-length(y)

bfit<-betareg(accuracy ~ dyslexia + iq, data = ReadingSkills)
DFFITS<-dffits(bfit, infl=influence(bfit, do.coef = FALSE))
DFFITS

它的产量

Error in if (model$rank == 0) { : argument is of length zero

我是R新手,不知道如何解决这个问题。请帮助解决这个问题,或者通过 R 代码给我一些关于如何手动计算 DFFIT 的提示。 问候

最佳答案

dffits 未针对 "betareg" 对象实现,但您可以尝试手动计算它们。

根据this Stack Overflow Q/A我们可以编写这个函数:

dffits1 <- function(x1, bres.type="response") {
  stopifnot(class(x1) %in% c("lm", "betareg"))
  sapply(1:length(x1$fitted.values), function(i) {
    x2 <- update(x1, data=x1$model[-i, ]) # leave one out
    h <- hatvalues(x1)
    nm <- rownames(x1$model[i, ])
    num_dffits <- suppressWarnings(predict(x1, x1$model[i, ]) - 
                                     predict(x2, x1$model[i, ]))
    residx <- if (class(x1) == "betareg") {
      betareg:::residuals.betareg(x2, type=bres.type)
    } else {
      x2$residuals
    }
    denom_dffits <- sqrt(c(crossprod(residx)) / x2$df.residual*h[i])
    return(num_dffits / denom_dffits)
  })
}

它适用于lm:

fit <- lm(mpg ~ hp, mtcars)
dffits1(fit)
stopifnot(all.equal(dffits1(fit), dffits(fit)))

现在让我们尝试 betareg:

library(betareg)
data("ReadingSkills")

bfit <- betareg(accuracy ~ dyslexia + iq, data=ReadingSkills)
dffits1(bfit)
#           1           2           3           4           5           6           7 
# -0.07590185 -0.21862047 -0.03620530  0.07349169 -0.11344968 -0.39255172 -0.25739032 
#           8           9          10          11          12          13          14 
#  0.33722706  0.16606198  0.10427684  0.11949807  0.09932991  0.11545263  0.09889406 
#          15          16          17          18          19          20          21 
#  0.21732090  0.11545263 -0.34296030  0.09850239 -0.36810187  0.09824013  0.01513643 
#          22          23          24          25          26          27          28 
#  0.18635669 -0.31192106 -0.39038732  0.09862045 -0.10859676  0.04362528 -0.28811277 
#          29          30          31          32          33          34          35 
#  0.07951977  0.02734462 -0.08419156 -0.38471945 -0.43879762  0.28583882 -0.12650591 
#          36          37          38          39          40          41          42 
# -0.12072976 -0.01701615  0.38653773 -0.06440176  0.15768684  0.05629040  0.12134228 
#          43          44 
#  0.13347935  0.19670715 

看起来不错。

注释:

  • 即使这在代码中有效,您也应该检查它是否满足您的统计要求!
  • 我在 dffits15:6 行中使用了 suppressWarningspredict(bfit, ReadingSkills) 会以某种方式降低对比度,而 predict(bfit) 则不会(实际上应该是相同的)。然而,结果是相同的:all.equal(predict(bfit, ReadingSkills), Predict(bfit)),因此忽略警告是安全的。

关于r - Beta 回归的 DFFIT,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63591607/

相关文章:

python - Plotly 箱形图关闭异常值检测

python - 使用 R SOAP (SSOAP) 检索数据/抓取

r - 在循环中收集未知数量的结果

r - R 中新值出现的递增计数器

algorithm - 检测异常值的最佳方法是什么?

python - scikit-learn Python 中 OneClassSVM 中的 'gamma' 参数是什么?

r - 获取所有观察组合的集合之间的交集

r - 从 GRanges 文件中的基因 ID 的 R 对象中提取子集

r - 带有一些极值的条形图

r - 消除 R 中的异常数据点