我正在寻找一个轻量级 Java 库,该库支持按位置敏感散列进行最近邻搜索,以在具有数十万个数据点的高维(在我的案例中为 32)数据集中几乎均匀分布的数据。
获取存储桶中的所有条目以进行查询是完全足够的。考虑到我的问题包括的一些过滤器参数,然后可以以不同的方式处理我真正需要的那些。
我已经找到 likelike但希望有一些更小的东西,不需要任何其他工具(如 Apache Hadoop 在 likelike 的情况下)。
最佳答案
也许这个:
“TarsosLSH 是一个 Java 库,它实现了局部敏感哈希 (LSH),这是一种在亚线性时间内运行的多维 vector 的实用最近邻搜索算法。它支持多个局部敏感哈希 (LSH) 系列:欧几里得哈希系列 (L2 )、城市街区散列系列 (L1) 和余弦散列系列。该库试图在有足够能力完成实际任务和足够紧凑以作为 LSH 如何工作的演示之间达到最佳平衡点。
代码可以找到here
关于java - Java 中的 LSH 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9910215/