java - 从数据集中随机抽样，同时保留原始概率分布

标签 java sampling probability-density

我有一组 >2000 个数字，从测量中收集。我想从这个数据集中抽样，每次测试约 10 次，同时保留总体概率分布，并在每次测试中(在大约可能的范围内)。例如，在每个测试中，我想要一些小值，一些中等值，一些大值，均值和方差近似接近原始分布。结合所有的测试，我还想要所有样本的总均值和方差，近似接近原始分布。

因为我的数据集是 long-tail probability distribution ，每个分位数的数据量是不一样的:

图 1. ~2k 数据元素的密度图。

我正在使用 Java，现在我正在使用 uniform distribution ，并使用数据集中的随机整数，并返回该位置的数据元素:

public int getRandomData() {
    int data[] ={1231,414,222,4211,,41,203,123,432,...};
    length=data.length;
    Random r=new Random();
    int randomInt = r.nextInt(length);
    return data[randomInt];
}

我不知道它是否如我所愿，因为我使用数据是为了测量它，它具有大量的序列相关性。

最佳答案

如你所愿。数据的顺序无关紧要。

关于java - 从数据集中随机抽样，同时保留原始概率分布，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32539767/

上一篇：java - 在JavaFX中，如何在不失去第一个阶段焦点的情况下打开另一个阶段？

下一篇：java - 如何使用 Spring Java 配置转换 siteminder xml 配置

相关文章：

java - 如何在 ViewPager Fragment 中更改 View

java - switch 语句不兼容类型

c - 音频中的采样率是什么意思

matlab - 求具有范围的高斯随机变量的概率

java - 如何开始编写代码覆盖工具？

java - LinearLayout问题[Android]

c++ - 从 C++ 中的离散概率分布中抽样

python - 使用总体样本的分类器 : scaling the population and then sampling/scaling the sample/scaling the X_TRAIN split of the sample?

iOS - 如何选择数组中的对象比其他对象更多

python - 用频率计数绘制概率密度函数