data-mining - 来自观察集合的高维聚类

标签 data-mining cluster-analysis statistics

我陷入了这个奇怪的高维聚类问题。这里打个比方来解释。

假设有 2^10 个人进入一片森林,我们想知道那里生活着多少种鸟类。

这些鸟在 128 个维度上彼此不同,并且所有维度都是二进制的。即:一只鸟要么有大喙,要么有小喙,要么有蓝色的翅膀,要么没有,等等。(每种鸟类可以用 128 位来表示)

我的问题是,当这些人离开森林时,我们只有他们的观察结果的集合:

“我看到 8 只鸟,3 只有蓝色的喙(5 只没有),4 只有蓝色的翅膀(4 只没有),1 只有大喙(7 只没有),等等”。他们报告他们观察到的个体特征,而只报告他们观察到的总体特征。

还有两个额外的约束:

i) 所有物种至少被观察一次; ii) 物种数量少 (~2^5)。

当然,我们可以汇总它们的总和(在 3000 次观察中,有 357 只鸟有大喙,等等)。但是集群呢?

所以问题是:

  1. 我们怎样才能知道那里生活着多少物种?

  2. 如何找出每个物种的特征?

最佳答案

由于 2^128 = 340282366920938463463374607431768211456,您需要相当大的样本量才能得出有效结论。观察到的每只鸟很容易都是独一无二的。

关于data-mining - 来自观察集合的高维聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13925095/

相关文章:

java - 比较木瓦以进行近似重复检测

validation - R - 检查组分配的一致性,不同名称的组标签

python - 为什么我收到 TypeError : unsupported operand type(s) for/: 'str' and 'int' ?

algorithm - 数据挖掘算法比较

c++ - DLIB 是用于在 C++ 中开发我自己的机器学习算法的良好开源库吗?

machine-learning - scikit-learn:使用 DBSCAN 对文本文档进行聚类

machine-learning - 什么方法最适合对形状不规则的多维数据进行聚类?

cluster-analysis - "Frenemies",或如何让青少年在生日聚会上开心

python - R 和 Python 的输出值不同?

r - 在数据框中的多列上使用shapiro.test