我有大量数据(文本)语料库,我已将其转换为稀疏术语文档矩阵(我正在使用 scipy.sparse.csr.csr_matrix
来存储稀疏矩阵)。我想为每个文档找到前 n 个最近的邻居匹配项。我希望 Python scikit-learn
库中的 NearestNeighbor
例程(准确地说是 sklearn.neighbors.NearestNeighbor
)可以解决我的问题,但效率很高使用空间分区数据结构(例如 KD 树
或 Ball 树
)的算法不适用于稀疏矩阵。只有蛮力算法适用于稀疏矩阵(这在我的情况下是不可行的,因为我正在处理大型语料库)。
稀疏矩阵的最近邻搜索是否有任何有效的实现(在 Python 或任何其他语言中)?
谢谢。
最佳答案
迟到的答案:看看Locality-Sensitive-Hashing
关于python - 稀疏矩阵的高效最近邻搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18164348/