machine-learning - 根据自变量和因变量之间的关系模式对数据进行聚类

标签 machine-learning cluster-analysis pattern-recognition

我有兴趣根据因变量和自变量之间的关系对具有一维输出的二维输入数据进行聚类。 例如,如果 2 个独立维度为 x,y,因变量为 z,并且 (x,y) 和 z 之间的关系在 xy 空间中的不同区域不同;我想对数据进行聚类,使得 xy 空间中与 z 表现出相同函数关系的区域落入一个聚类。 xy 空间和 z 之间可能存在的函数关系是先验未知的。

如果有人能为我提供有关哪些机器学习技术可以按原样使用或修改以适应这个问题的指导/引用,那就太好了。

最佳答案

这个问题没有很好的答案,因为这是聚类和分类技术混合的整个领域的核心概念。因此,人们提出了数十种方法,从对初始数据(在您的情况下是整个 XYZ 空间)进行聚类,通过对每个聚类中分类模型的可能行为进行独立分析,到将两个过程完全合并到一个大的优化问题中。在我看来,它几乎与问“我有一个 (x,f(x)) 形式的数据并且想要重建“f”一样广泛,我该怎么做?”

因此,引用文献将在谷歌上搜索与聚类和分类混合相关的任何内容,因为您所询问的问题相当于找到一个好的聚类来对(部分)独立的分类/回归任务进行建模。

当然,如果您了解这种函数关系的形式,那么整个问题就很容易解决。例如,如果您知道您的函数关系或多或少是一个高斯函数,您可以简单地将一些高斯混合模型拟合到您的数据中。一般来说,考虑到对该函数的一些了解,EM(期望最大化)将是一个不错的选择。

关于machine-learning - 根据自变量和因变量之间的关系模式对数据进行聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20012248/

相关文章:

python - 有没有办法使用找到的顺序模式作为聚类算法的输入

algorithm - 轨迹聚类 : Which Clustering Method?

algorithm - 检测表格数据结构的最佳方法是什么?

matlab - 快速图像扫描

machine-learning - 机器学习算法评估

machine-learning - 为什么 Bert 格式需要一次性列?

R:除了 nstart 和 iter.max 的设置不同之外,k 均值中的集群相同

algorithm - 关于调整级联 AdaBoost 阶段阈值的一些细节

python - 随机森林树生长算法

python - Tensorflow:估计器 n_classes 问题