r - 努力理解 Q1 计算

假设我们有以下数据集(长度为24):

x <- c(30L, 49L, 105L, 115L, 118L, 148L, 178L, 185L, 196L, 210L, 236L, 236L,
278L, 287L, 329L, 362L, 366L, 399L, 430L, 434L, 451L, 451L, 477L, 488L, 508L,
531L, 533L, 542L)

如果我们计算五数汇总: 最小值是 30，最大值:542，中值:(287 + 329)/2 = 308...这是最简单的部分!

Q1 是子集 [30, 49,105,....287] 的中位数，长度为 14 --> Q1 = [178 + 185]/2 = 181.5
Q3 """"[329,362,...,542] = [451 + 451]/2 = 451

现在，如果我们使用函数 summary(dataset) 检查它……我们得到:

Min.   1st Qu.  Median    Mean    3rd Qu.    Max. 
30.0   183.2    308.0     309.7   451.0      542.0

为什么我们得到不同的 Q1？ summary 函数如何计算 Q1？

最佳答案

有(至少)九种方法来计算分位数:参见?quantile。对于这个数据集，9 种方法产生了 6 个独特的结果:9 种方法中有 2 种给出了 181.5 的答案......

res <- sapply(1:9, function(t) quantile(x, 0.25, type=t))
names(res) <- 1:9
sort(res)

##       1        3        4        6        8        9        2        5 
## 178.0000 178.0000 178.0000 179.7500 180.9167 181.0625 181.5000 181.5000 
##        7 
## 183.2500

R 中的默认方法是“type 7”，它给出 183.25(summary 中的值打印精度略低，因此显示为 183.2)。

关于r - 努力理解 Q1 计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64789753/

上一篇：google-cloud-platform - Google Cloud Build 无法通过我的私有(private) GitHub 存储库进行身份验证

下一篇：sql-server - 脚本任务使用集成服务发布不支持的版本15.0

相关文章：

r - 如何将表格另存为图像同时保持其质量？电阻

r - 如何将多行合并转换为一列？

hadoop - 在 map reduce 中计算中位数

sql - sql server中的加权标准差没有聚合错误

python - pymc 中的随机变量

java - 计算具有随机采样间隔的多个时间序列的平均值

html - sendmailR 在 HTML 正文中添加额外空间，偶尔会破坏 HTML 标签

r - 如何在维恩图 R 中的每个图上添加标题

r - 如何在 R 中生成给定分布、均值、SD、偏斜和峰度分布？

algorithm - 在什么情况下，[0,1) 上生成的随机数与 [0,1] 上生成的随机数之间的差异会产生影响？