data-mining - equal - depth binning - 是否只是将数据分成k组

关于等深度或等频率合并的小困惑

等深度分箱表示 - 它将范围划分为 N 个间隔，每个间隔包含大约相同数量的样本

让我们拿一小部分虹膜数据

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa

如果我需要对第一列进行分类，结果会是什么？无论它只是对数据进行分组，还是包括一些计算，例如等宽分箱。

如果要装箱的元素数量是奇数，会发生什么情况。我将如何平均分箱？

最佳答案

就像@Anony-Mousse 提到的那样，并不总是能够完全在容器中获得相同数量的样本，大约是所需要的。

我将在unique(N)/bins > 0 时向您介绍案例, 其中N表示要合并的数组中的值。假设

N = [1, 1, 1, 1, 1, 1, 2, 3, 4, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6] bins = 4

在这里，length(N) = 20和 length(unique(N)) = 6 , 制作 unique(N)/bins = 1.5 > 0 .这意味着每个箱子大约有 1.5 sample 。所以你会把1在 bin1 中，将 0.5 残基带入下一个 bin，使该 bin 中的元素数量为 1.5 + 0.5 = 2 , 所以 2和 3将在 bin2 中。推断此逻辑，最终的 bin 将具有以下拆分。 [1], [2,3], [4], [5,6]当然1重复 6 次和 6重复 10 次。我不希望关系位于不同的箱子中，这通常是拥有箱子(分组值彼此接近)的要点。

对于 unique(N)/bins < 0 的情况，可以应用相同的逻辑。希望这能回答您的问题。

关于data-mining - equal - depth binning - 是否只是将数据分成k组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34264268/

上一篇：file - 如何在emacs中快速打开文件？

下一篇：android - 在 Volley 请求中添加 JWT token

相关文章：

r - 如何在 k 均值中使用欧氏距离以外的不同距离公式

r - 我可以在 R 中执行广义迭代缩放吗？

database - 如何有效地存储大量的 n 克？

r - 如何对每个样本的多个观察值中的变量进行分箱？

python - 对于直方图，如何保留所有指定的 bin-ticks 沿 x 轴并仅显示指定的 bin-ticks 的数字标签？

machine-learning - 数据挖掘中分类和聚类的区别？

r - R 中 Tomek 链接的快速计算

python - 通过 DecisionTreeClassifier sklearn 合并数据？

python - 如何用 Pandas 装箱花车列

python - 当值不满足任何边界时如何在 pandas.cut() 上给出标签