我有一些统计数据。一些数据对于大多数数据集来说非常分散,如下所示。我想做的就是尽量减少数据集中高度分散的数据的影响。我想计算数据集的平均值,在我的例子中,它可以最小化分散数据的影响。
My data set is as like this:
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42.
如下图所示:
我需要的平均值不是 46.3 但更接近其他数据分布。 实际上,我想最小化 89.23 和 328.42 在均值计算中的影响。 提前致谢
最佳答案
您可能会注意到您确实不需要平均值。这里的问题是您假设的数据分布与实际数据不同。如果您尝试使该数据符合正态分布,您将得到不好的结果。您可以尝试将柯西等重尾分布拟合到此数据。如果你想使用正态分布,那么你需要过滤掉非正态样本。如果您觉得自己知道标准差应该是多少,则可以从上面的样本中删除所有内容,例如距平均值 3 个标准差(数字 3 必须取决于样本大小)。可以递归地完成此过程以删除非正态样本,直到您对标准差方面的异常值大小感到满意为止。
关于java - 统计数据分析中的分散数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11970829/