r - 可能的 ggplot2 错误 : inconsistent normalizations of overlaid histograms

我最近无意中发现了 ggplot2 中的一些奇怪行为。以下代码

N <- 1000
coin <- rep(c(0,1),N/2)
N1 <- sum(coin)
N0 <- sum(1-coin)
values <- rep(0,N)
values[coin==0] <- rnorm(N0,mean=0,sd=1)
values[coin==1] <- rnorm(N1,mean=0,sd=1)
dat = data.frame('Value'=values,'Category'=as.factor(coin))

创建一个包含一个数字列和一个因子列的数据集，属于两个类别的事件数量相等:

> summary(dat)
     Value           Category
 Min.   :-3.901785   0:500   
 1st Qu.:-0.669807   1:500   
 Median : 0.020031           
 Mean   :-0.008229           
 3rd Qu.: 0.650803           
 Max.   : 3.195819

但是，当绘制按类别分割的值列时，类别 1 的规范化程度比类别 0 高得多:

ggplot(dat,aes(x=Value,fill=Category)) + geom_histogram(alpha=0.5) + theme_bw()

这看起来很奇怪。两个直方图的 bin 宽度看起来是相等的，它们应该是相等的，但事件的总计数并不相等，它们应该是相等的。类别0直方图实际上是整个数据集的直方图:

ggplot(dat,aes(x=Value)) + geom_histogram(alpha=0.5) + theme_bw()

这是 ggplot2 错误，还是我犯了一些我没有注意到的错误？ (顺便说一下，如果我用“A”和“B”替换类别 0 和 1，我会得到同样的结果)。

系统详情:

Mac OS X High Sierra
R 版本 3.4.0 (2017-04-21)
ggplot2_2.2.1

最佳答案

geom_histogram 默认通过参数 position="stack" 将条形堆叠在一起。这对于同时查看整体构成和每个部分的贡献很有用，但对于直接比较各部分就没那么有用了。您可以通过将位置参数更改为 "identity" 来覆盖它，例如:

ggplot(dat,aes(x=Value,fill=Category)) +
 geom_histogram(alpha=0.5, position="identity") + theme_bw()

关于r - 可能的 ggplot2 错误 : inconsistent normalizations of overlaid histograms，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50817980/

r - 可能的 ggplot2 错误 : inconsistent normalizations of overlaid histograms

上一篇：r - 更改由函数创建的 ggplot 对象的颜色

下一篇：network-programming - 我们可以在 2 对特定的 IP 和端口之间同时有两个 udp 流吗？