java - 什么是确定 2 个字符串是否为 "similar enough"的好指标

标签 java string-matching levenshtein-distance similarity

我正在研究一个非常粗略的初稿算法,以确定 2 个字符串的相似程度。我也在使用 Levenshtein Distance计算字符串之间的编辑距离。

我目前所做的基本上是将编辑总数除以较大字符串的大小。如果该值低于某个阈值,目前随机设置为 25%,那么它们“足够相似”。

但是,这完全是任意的,我认为这不是计算相似度的好方法。是否有某种数学方程或概率/统计方法来获取 Levenshtein 距离数据并使用它来表示“是的,这些字符串根据所做的编辑次数和字符串的大小足够相似”?

另外,这里的关键是我使用的是任意阈值,我不想这样做。如何计算这个阈值而不是分配它,以便我可以安全地说 2 个字符串“足够相似”

更新

我正在比较代表 Java 堆栈跟踪的字符串。我想这样做的原因是按相似性对一组给定的堆栈跟踪进行分组,并将其用作过滤器来对“东西”进行排序:) 这种分组对于更高层次的原因很重要,我不能完全公开分享。


到目前为止,我的算法(伪代码)大致如下:

/*
 * The input lists represent the Strings I want to test for similarity. The
 * Strings are split apart based on new lines / carriage returns because Java
 * stack traces are not a giant one-line String, rather a multi-line String.
 * So each element in the input lists is a "line" from its stack trace.
 */
calculate similarity (List<String> list1, List<String> list2) {

    length1 = 0;
    length2 = 0;
    levenshteinDistance = 0;

    iterator1 = list1.iterator();
    iterator2 = list2.iterator();

    while ( iterator1.hasNext() && iterator2.hasNext() ) {

        // skip blank/empty lines because they are not interesting
        str1 = iterator1.next();    length1 += str1.length();
        str2 = iterator2.next();    length2 += str2.length();

        levensteinDistance += getLevenshteinDistance(str1, str2);
    }

    // handle the rest of the lines from the iterator that has not terminated

    difference = levenshteinDistance / Math.max(length1, length2);

    return (difference < 0.25) ? true : false; // <- arbitrary threshold, yuck!
}

最佳答案

如何使用余弦相似度?这是评估两个文本之间相似性的通用技术。它的工作原理如下:

从两个字符串中取出所有字母,然后构建一个像这样的表:

Letter | String1 | String2

这可以是一个简单的哈希表或其他任何东西。

在字母列中放入每个字母,在字符串列中将它们的频率放入该字符串中(如果字母未出现在字符串中,则值为 0)。

之所以称为余弦相似度,是因为您将两个字符串列中的每一个都解释为 vector ,其中每个分量都是与字母关联的数字。接下来,计算 vector 之间“角度”的余弦为:

C = (V1 * V2) / (|V1| * |V2|)

分子是点积,即对应分量的乘积之和,分母是 vector 大小的乘积。

C 与 1 的接近程度表明字符串有多相似。

它可能看起来很复杂,但是一旦你理解了这个想法,它只是几行代码。

让我们看一个例子:考虑字符串

s1 = aabccdd
s2 = ababcd

表格如下:

Letter a b c d
s1     2 1 2 2
s2     2 2 1 1

因此:

C = (V1 * V2) / (|V1| * |V2|) = 
(2 * 2 + 1 * 2 + 2 * 1 + 2 * 1) / (sqrt(13) * sqrt(10)) = 0.877

所以它们“非常”相似。

关于java - 什么是确定 2 个字符串是否为 "similar enough"的好指标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8451578/

相关文章:

ios - Swift Trie levenshtein 距离搜索

java - 将 Scanner 对象连接到 System.in 对象并使用 Scanner 方法

java - 用于在 Eclipse 中快速注释/取消注释代码的任何菜单或热键

pandas - 像SQL一样的 Pandas 文本匹配?

python - 将字符串(任意顺序)与大数组中的字符串进行匹配

cocoa - 匹配核心数据存储中的近似字符串

java - 使用 spring ws 后端 Web 应用程序进行 session 管理

java - 在 ant 中设置类路径的问题

string - 如何检查Lua中的字符串中是否找到匹配的文本?

sql-server - 单词的 Damerau-Levenshtein 距离