data-mining - equal - depth binning - 是否只是将数据分成k组

标签 data-mining binning

关于等深度或等频率合并的小困惑

等深度分箱表示 - 它将范围划分为 N 个间隔,每个间隔包含大约相同数量的样本

让我们拿一小部分虹膜数据

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa

如果我需要对第一列进行分类,结果会是什么? 无论它只是对数据进行分组,还是包括一些计算,例如等宽分箱。

如果要装箱的元素数量是奇数,会发生什么情况。我将如何平均分箱?

最佳答案

就像@Anony-Mousse 提到的那样,并不总是能够完全在容器中获得相同数量的样本,大约 是所需要的。

我将在unique(N)/bins > 0 时向您介绍案例, 其中N表示要合并 的数组中的值。假设

N = [1, 1, 1, 1, 1, 1, 2, 3, 4, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6] bins = 4

在这里,length(N) = 20length(unique(N)) = 6 , 制作 unique(N)/bins = 1.5 > 0 .这意味着每个箱子大约有 1.5 sample 。所以你会把1bin1 中,将 0.5 残基带入下一个 bin,使该 bin 中的元素数量为 1.5 + 0.5 = 2 , 所以 23将在 bin2 中。推断此逻辑,最终的 bin 将具有以下拆分。 [1], [2,3], [4], [5,6]当然1重复 6 次和 6重复 10 次。 我不希望 关系 位于不同的箱子中,这通常是拥有箱子(分组值彼此接近)的要点。

对于 unique(N)/bins < 0 的情况,可以应用相同的逻辑。希望这能回答您的问题。

关于data-mining - equal - depth binning - 是否只是将数据分成k组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34264268/

相关文章:

r - 如何在 k 均值中使用欧氏距离以外的不同距离公式

r - 我可以在 R 中执行广义迭代缩放吗?

database - 如何有效地存储大量的 n 克?

r - 如何对每个样本的多个观察值中的变量进行分箱?

python - 对于直方图,如何保留所有指定的 bin-ticks 沿 x 轴并仅显示指定的 bin-ticks 的数字标签?

machine-learning - 数据挖掘中分类和聚类的区别?

r - R 中 Tomek 链接的快速计算

python - 通过 DecisionTreeClassifier sklearn 合并数据?

python - 如何用 Pandas 装箱花车列

python - 当值不满足任何边界时如何在 pandas.cut() 上给出标签