java - 统计数据分析中的分散数据集

标签 java statistics mean scatter

我有一些统计数据。一些数据对于大多数数据集来说非常分散,如下所示。我想做的就是尽量减少数据集中高度分散的数据的影响。我想计算数据集的平均值,在我的例子中,它可以最小化分散数据的影响。

My data set is as like this:
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42.

如下图所示: One data is scattered as shown below(say)

我需要的平均值不是 46.3 但更接近其他数据分布。 实际上,我想最小化 89.23 和 328.42 在均值计算中的影响。 提前致谢

最佳答案

您可能会注意到您确实不需要平均值。这里的问题是您假设的数据分布与实际数据不同。如果您尝试使该数据符合正态分布,您将得到不好的结果。您可以尝试将柯西等重尾分布拟合到此数据。如果你想使用正态分布,那么你需要过滤掉非正态样本。如果您觉得自己知道标准差应该是多少,则可以从上面的样本中删除所有内容,例如距平均值 3 个标准差(数字 3 必须取决于样本大小)。可以递归地完成此过程以删除非正态样本,直到您对标准差方面的异常值大小感到满意为止。

关于java - 统计数据分析中的分散数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11970829/

相关文章:

java - 如何在Java中使用GridLayout?

perl - 如何使用 Perl 获得频率序列的递减累积?

r - 使用时间间隔计算另一个数据帧的平均值

python - 单词和组元组之间的映射以获得单词的频率

r - 不同的方法来修剪均值会产生不同的结果

c - 为什么我的平均值不是正确答案? (求均值的C代码程序)

java - Android:向下缩放固定布局

java - 十进制转二进制代码

java - 如何在不使用集合的情况下从 Java 中的给定数组中删除重复元素

r - 如何在 ggplot2 中使用填充美学绘制两组的相对比例?