比方说,我可以通过 1000 种不同的方式来定义一个人,所以我对某个特定的人有 1,000 个特征。
问题:在给定 1,000 个特征的情况下,如何运行机器学习算法来确定最佳匹配或最接近/最相似的人?
我尝试过Kmeans,但这似乎更适合 2 个特征,而不是高维度。
最佳答案
你基本上是在追求某种K Nearest Neighbors Algorithm .
由于您的数据具有高维度,您应该探索以下内容:
- 降维 - 您可能有 1000 个特征,但其中一些可能比其他特征更好。因此,应用某种 Dimensionality Reduction 是明智之举。 。最简单的第一个起点是 Principal Component Analysis (PCA)它保留了约 90% 的数据(即使用足够的特征向量,将 90% 的能量与其匹配的特征值相匹配)。我假设您会看到此数量的显着减少。
- 加速 K 最近邻 - 有许多方法可以加速高维情况下 K-NN 的搜索。 K D Tree Algorithm这将是一个良好的开始。
关于machine-learning - 使用哪种机器学习算法进行高维匹配?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45389438/