r - 剪切数据和访问组以绘制百分位线

标签 r cut percentile

我对 R 还很陌生,所以请保持温柔。

我有一个包含时间戳和一些数据的数据集。 现在我想画一个图表,其中:

  • 数据按以下方式分组: 60 分钟间隔和
  • 绘制了一些百分位数线。

我想要一个以时间为 x 轴、间隙为 y 轴的图表。 我想象类似箱线图的东西,但为了更好的概述 - 因为我有一个很长的测量 - 而不是盒子,我想要有连接的线

  • 平均值,
  • 3 个百分位数,
  • 97 个百分位数和
  • 100 个百分位数

这是一个示例数据:

> head(B, 10)
                        times     gaps
1  2013-06-10 15:40:02.654168 1.426180
2  2013-06-10 15:40:18.936882 2.246462
3  2013-06-10 15:40:35.215668 3.227132
4  2013-06-10 15:40:48.328785 1.331284
5  2013-06-10 15:40:53.809485 1.294128
6  2013-06-10 15:41:04.027745 2.292671
7  2013-06-10 15:41:25.876519 1.293501
8  2013-06-10 15:41:42.929280 1.342166
9  2013-06-10 15:42:11.700626 3.203901
10 2013-06-10 15:42:23.059550 1.304467

我可以使用cut来划分数据:

C <- table(cut(B, breaks="hour"))

C <- data.frame(cut(B, breaks="hour"))

但是我怎样才能画出这个图表呢?我不知道如何访问组的差距值。否则我可以

quantile(C$gaps, c(.03, .5, .97, 1))

预先感谢您的帮助 雷蒙

最佳答案

确实的问题。我一直在拔头发,直到我发现this其中描述了 plyr 的一个有趣的“功能”。所以这个解决方案利用了 ggplot、plyr、reshape2 - 希望这是对 R 的一个很好的介绍。如果您需要添加几天的剪切,您也可以通过在 ddply() 中添加一个变量来做到这一点。

library(plyr)
library(reshape2)
library(ggplot2)
Hs <- read.table(
  header=TRUE, text='
dates times     gaps
1  2013-06-10 15:40:02.654168 1.426180
2  2013-06-10 15:40:18.936882 2.246462
3  2013-06-10 15:40:35.215668 3.227132
4  2013-06-10 15:40:48.328785 1.331284
5  2013-06-10 15:40:53.809485 1.294128
6  2013-06-10 15:41:04.027745 2.292671
7  2013-06-10 16:41:25.876519 1.293501
8  2013-06-10 16:41:42.929280 1.342166
9  2013-06-10 16:42:11.700626 3.203901
10 2013-06-10 16:42:23.059550 1.304467')
Hs$dates <- paste(Hs$date, Hs$times, sep = " ")
Hs$dates <- strptime(Hs$date, "%Y-%m-%d %H:%M:%S")
class(Hs$dates) # "POSIXlt" "POSIXt" 
Hs$h1 <- Hs$dates$hour
Hs$dates <- as.POSIXct(strptime(Hs$date, "%Y-%m-%d %H:%M:%S"))
class(Hs$dates) # "POSIXct" "POSIXt" 
library(ggplot2)
ggplot(Hs, aes(factor(h1), gaps)) + 
  geom_boxplot(fill="white", colour="darkgreen") # easy way!  Traditional boxplot.
ggplot(Hs, aes(factor(h1), gaps)) + geom_boxplot() +
      stat_boxplot(coef = 1.7, fill="white", colour="darkgreen") 

我不知道添加“coef = 1.7”是否适合您- 如果不继续进一步通过汇总表创建值

cuts <- c(.03, .5, .97, 1)
x <- ddply(Hs, .(h1), function (x)
{summarise(x, y = quantile(x$gaps, cuts))})
x$cuts <- cuts
x <- dcast(x, h1 ~ cuts, value.var = "y")
x.melt <- melt(x, id.vars = "h1")

这是您要求的线条以及另一个箱形图,只是为了好玩。

ggplot(x.melt, aes(x = h1, y = value, color = variable)) + geom_point(size = 5) + 
  geom_line() + scale_colour_brewer(palette="RdYlBu") + xlab("hours")
ggplot(x, aes(factor(h1),  ymin = 0, lower = `0.03`, middle = `0.5`,
                     upper = `0.97`, ymax = `1`)) + 
         geom_boxplot(stat = "identity", fill="white", colour="darkgreen")

geom_line

custom boxplot

希望这有帮助。

关于r - 剪切数据和访问组以绘制百分位线,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17066129/

相关文章:

bash - 在 cut 的输出中保留分隔符

sql - HIVE中的百分位计算

r - 如何根据条件进行累计计数?

r - 为什么 ACF 不绘制滞后

json - 嵌套 json 的 Azure JMESPATH 查询

r - 在 R 中创建百分位类别

python - 使用 python 从 beta 分布获取分位数

r - 在data.Table中使用反向选择按引用删除多列

r - 选择性编织R笔记本