r - R boxplot 中的异常值究竟是如何去除的,如何去除相同的异常值以进行进一步计算(例如平均值)?

标签 r mean outliers

boxplot我已经设置了选项 outline=FALSE去除异常值。
现在我想包括 points显示 平均值 在箱线图中。显然,使用 mean 计算的均值包括异常值。

如何从数据框中删除完全相同的异常值,以便计算出的均值与箱线图中显示的数据相对应?

我知道如何去除异常值,但 outline 使用了哪些设置选项来自 boxplot内部?不幸的是,手册没有给出任何说明。

最佳答案

要回答问题的第二部分,关于如何选择异常值,最好提醒一下箱线图是如何构建的:

  • 箱线图的“主体”对应于数据的第二个 + 第三个四分位数(=四分位距,IQR)
  • 每个晶须限制通常计算为超出该主体末端的 1.5*IQR。

  • 如果假设您的数据呈正态分布,则每个须线外都有以下数据量:
    1-pnorm(qnorm(0.75)+1.5*2*qnorm(0.75))
    

    为 0.0035。因此,正常变量具有 0.7% 的“箱线图异常值”。

    但这不是一种非常“可靠”的检测异常值的方法,有packages为此专门设计的。

    关于r - R boxplot 中的异常值究竟是如何去除的,如何去除相同的异常值以进行进一步计算(例如平均值)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27036134/

    相关文章:

    algorithm - 使用 ELKI 进行离群值检测

    r - 如何加速结合 rbind 和 lapply 的函数?

    r - 在 R 中分组数据后使用用户定义的函数

    Pandas - 延长平均 session 时间

    r - 如何从向量列表中删除异常值?

    function - R:使用分位数 0.05 和 0.95 对数据框中的每一列进行异常值清理

    r - 使用列表列规范化数据框

    r - 如何将数字转换为正常日期?

    python - 计算不同长度数组的平均值

    r - 通过 R 中的标准计算平均值