给定 M 个实数的任意两个序列/向量,我可以使用各种度量/范数轻松计算它们的接近度或相关性。但是是否有一种有效的结构来查找序列语料库中最近的 M 序列,或者较长序列的最近子序列?滑动窗口将是天真的/蛮力方法。但是,有谁知道更好的东西吗?
编辑:当我输入这个时,我在想像在 K-d 树中搜索这样的东西可能会起作用,其中每个偏移量都是 M 维空间中的一个单独的维度?
最佳答案
加速结构(例如 K-d 树)的问题在于,随着维度(问题中的 M)的增加,它们变得不那么有效。如果您的 M 非常大,您最好使用线性搜索。
如果您的 M 大小适中(最多 6 个左右,作为大概猜测?),可能值得尝试 K-d 树。有可用于高维空间的搜索结构;我建议查看 Samet 撰写的多维和度量数据结构基础。
关于algorithm - 搜索引擎/算法找到最接近的连续(浮点)采样信号?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9881072/