支持快速近似最近邻查询的数据库

<分区>

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。

我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。

关闭 2 年前。

有没有支持高维向量空间快速近似最近邻查询的数据库？

我正在寻找适合以下用例的数据库:

是否存在对此的稳健实现？

最佳答案

有 ANN库，它非常适合高维大型数据集，但它不是一个完整的“数据库”，也不是一个分布式解决方案。

有一家名为 SpaceCurve(与我无关)的初创公司致力于商业空间数据库，因此根据您的需求和预算，他们可能值得研究。

作为一条建议:当您谈论“数十万维”时，您应该深入思考“最近邻”的真正含义。如果在 20 维立方体中取一百万个随机点，则任意两个最近邻点之间的平均距离已经约为立方体边长的一半。

随着维度的增加，这种情况只会呈指数级恶化。一旦你谈到数百个维度，如果它们分布均匀，你真的需要大量的点(比如 > 10³⁰)；如果它们的分布不同，您最好使用其他分类方法。

关于支持快速近似最近邻查询的数据库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18818011/