nearest-neighbor - 最近邻 - 局部敏感哈希劣势

标签 nearest-neighbor locality-sensitive-hash

局部敏感散列对于 KNN 来说似乎是一种很好的技术,没有任何缺点。但是,如果有人在工业中将其用于实际应用,那么局部敏感散列的缺点是什么? LSH在什么情况下会失败或者做的有些糟糕?还是编码/调整需要很长时间?

最佳答案

这是一个相当广泛的问题,但由于您是新来的,我会尝试回答。

LSH并没有你描述的那么完美,当然,请搜索相关论文。也许这个问题可以帮助:How to understand Locality Sensitive Hashing?

有许多 LSH 库提供了自动参数配置,但最重要的 R 却没有,它用于解决随机问题 R-近邻的版本。这是一个主要缺点,因为用户必须 在每个输入处手动识别 R。在我看来,这是您在实际应用中必须考虑的一个非常重要的方面。

关于性能,这完全取决于您的输入!例如 kd-GeRaF在我的项目中,我对 LSH 进行了彻底的测试,我发现它在准确性和搜索速度方面可能存在一些重要问题。执行 ANNS 的高维空间中的数据集范围。

关于nearest-neighbor - 最近邻 - 局部敏感哈希劣势,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34203515/

相关文章:

python - 无需共享数据的快速/简单数组比较算法

python - 稀疏 numpy 数组的局部敏感散列

c - Hashtable的有效实现,具有可识别缓存的本地性(对本地性敏感的哈希表)

r - 如何正确使用K近邻?

python - 绘制具有 8 个特征的 k-最近邻图?

java - 数据库中属性之间的相似性

algorithm - 匹配数百万人 : k-d tree or locality-sensitive hashing?

python - 如何提高for循环的执行时间?

algorithm - ANN 搜索能否在具有高维表示的大型数据库中超越 NN 搜索的准确性?

c# - 为 C# 保留局部性的哈希函数