我有一组结果(数字),我想知道给定结果与之前结果(仅之前)相比是否非常好/很差。
每个结果都是一个数字 € IR+。例如,如果您有序列 10, 11, 10, 9.5, 16
,那么与之前的结果相比,16 显然是一个非常好的结果。我想找到一种算法来检测这种情况(与以前的结果相比,结果非常好/坏)。
描述这个问题的更通用的方法是:如何确定给定数据集中的一个点是否与其余数据分散。
现在,这可能看起来像一个峰值检测问题,但由于以前的值不是恒定的,所以有很多微小的峰值,而我只想要大的峰值。
我的第一个想法是计算平均值并确定标准差,但它非常有限。事实上,如果之前的结果中有一个巨大/低值,它将极大地改变平均值/标准差,并且下一个结果将必须更大/更低才能击败标准差(为了被检测到),因此许多点将不会被(正确)检测到。
我很确定这一定是一个众所周知的问题。
谁能帮我解决这个问题吗?
最佳答案
这种问题叫做Anomaly Detection .
关于algorithm - 检测与其余数据非常分散的点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18274728/