algorithm - 字符串的局部敏感散列?

标签 algorithm hash edit-distance locality-sensitive-hash

是否有针对字符串的哈希函数,使得编辑距离较小(例如,拼写错误)内的字符串会映射到相同或非常接近的哈希值,而不同的字符串往往不会?

最佳答案

一个选项是计算所有 k-mers(长度为 k 的子串)的集合,对它们进行散列并计算最小值。 因此,您将带状疱疹的想法与 minhashing 的想法结合起来。 (重复多次以获得更好的结果,与 LSH 方案一样)

其工作方式是两个字符串具有相同最小哈希值的概率与其 k-mer 集的 Jackard 相似度相同。 k-mer 集的相似性与编辑距离有关(但不相同)。

关于algorithm - 字符串的局部敏感散列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45870962/

相关文章:

algorithm - 编辑距离算法解释

r - 选择相似的句子

c - 全有或全无 - 快速启发式最短路径算法(并行?)

java - Java 的 Set 是否实现了 UnionFind 算法?

python - 在python中使用字符串+ key 计算SHA哈希

Java:两个列表之间的区别

c - 从字符串中反转子字符串

python - 如何在代码中更好地实现递归关系?

javascript - 在具有良好分布的两个整数之间散列字符串(均匀散列)

perl - 单个字符串中对象返回的 HASH 元素