data-mining - 来自观察集合的高维聚类

我陷入了这个奇怪的高维聚类问题。这里打个比方来解释。

假设有 2^10 个人进入一片森林，我们想知道那里生活着多少种鸟类。

这些鸟在 128 个维度上彼此不同，并且所有维度都是二进制的。即:一只鸟要么有大喙，要么有小喙，要么有蓝色的翅膀，要么没有，等等。(每种鸟类可以用 128 位来表示)

我的问题是，当这些人离开森林时，我们只有他们的观察结果的集合:

“我看到 8 只鸟，3 只有蓝色的喙(5 只没有)，4 只有蓝色的翅膀(4 只没有)，1 只有大喙(7 只没有)，等等”。他们不报告他们观察到的个体特征，而只报告他们观察到的总体特征。

还有两个额外的约束:

i) 所有物种至少被观察一次； ii) 物种数量少 (~2^5)。

当然，我们可以汇总它们的总和(在 3000 次观察中，有 357 只鸟有大喙，等等)。但是集群呢？

所以问题是:

最佳答案

由于 2^128 = 340282366920938463463374607431768211456，您需要相当大的样本量才能得出有效结论。观察到的每只鸟很容易都是独一无二的。

关于data-mining - 来自观察集合的高维聚类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13925095/

相关文章：

java - 比较木瓦以进行近似重复检测