关于等深度或等频率合并的小困惑
等深度分箱表示 - 它将范围划分为 N 个间隔,每个间隔包含大约相同数量的样本
让我们拿一小部分虹膜数据
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
如果我需要对第一列进行分类,结果会是什么? 无论它只是对数据进行分组,还是包括一些计算,例如等宽分箱。
如果要装箱的元素数量是奇数,会发生什么情况。我将如何平均分箱?
最佳答案
就像@Anony-Mousse 提到的那样,并不总是能够完全在容器中获得相同数量的样本,大约 是所需要的。
我将在unique(N)/bins > 0
时向您介绍案例, 其中N
表示要合并 的数组中的值。假设
N = [1, 1, 1, 1, 1, 1,
2, 3, 4, 5,
6, 6, 6, 6, 6, 6, 6, 6, 6, 6]
bins = 4
在这里,length(N) = 20
和 length(unique(N)) = 6
, 制作 unique(N)/bins = 1.5 > 0
.这意味着每个箱子大约有 1.5
sample 。所以你会把1
在 bin1 中,将 0.5 残基带入下一个 bin,使该 bin 中的元素数量为 1.5 + 0.5 = 2
, 所以 2
和 3
将在 bin2 中。推断此逻辑,最终的 bin 将具有以下拆分。 [1], [2,3], [4], [5,6]
当然1
重复 6 次和 6
重复 10 次。
我不希望 关系 位于不同的箱子中,这通常是拥有箱子(分组值彼此接近)的要点。
对于 unique(N)/bins < 0
的情况,可以应用相同的逻辑。希望这能回答您的问题。
关于data-mining - equal - depth binning - 是否只是将数据分成k组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34264268/