我有一个集合列表以及每个集合的一些基本统计数据(项目数、最小值、最大值、平均值、标准偏差)。我想为所有组合计算相同的统计数据。计算总计数、最小值、最大值和平均值很容易,但我不确定如何计算总标准差。
数据如下所示:
Count Max Min Mean Stddev
1,027,671 781 68 57.8 32.79
839,473 552 54 61.3 48.53
3,012,102 890 41 64.9 41.92
生成所有集合的统计数据:
4,879,246 890 41 62.8 ???
最佳答案
我假设您正在编写维护分布的代码,而不仅仅是消耗一些已经计算出标准差的数据。标准开发并不是计算机维护的真正自然参数。相反,您应该维护项目数、总和以及项目总和的平方,然后轻松计算这 3 条原始信息的分布的平均值和标准差。我在这里的代码中使用了这个策略。添加操作支持合并两个发行版。请注意它的实现是多么简单。 http://github.com/rrenaud/dominionstats/blob/master/stats.py#L17 .
关于math - 查找偏差/元素列表的标准偏差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13896289/