有没有关于 10k - 100k 等大量维度的 k-NN 搜索问题的文章?
大多数对真实世界数据进行测试的文章都以 10-50 dims 运行,少数运行 100-500。
在我的例子中,在 ~100k 的特征维度中有 ~10^9 个点,并且没有办法有效地减少维数。
更新: 目前我们正在尝试调整和实现 VP 树,但很明显,这个维度上的任何树结构都不会很好地工作。
第二种方法是 LSH,但根据数据分布,准确性可能存在很大问题。
最佳答案
看看FLANN图书馆。
在this paper你会发现一篇论文是关于数据维度如何成为对最近邻匹配性能影响很大的因素之一,以及FLANN中采用的解决方案。
关于algorithm - k-NN 搜索超大维度(~100,000),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17191398/