我有一个字符串列表作为查询,还有几百个其他字符串列表。我想将查询与其他所有列表进行比较,并提取它们之间的相似性分数。
例子:
query = ["football", "basketball", "martial arts", "baseball"]
list1 = ["apple", "football", "basketball court"]
list2 = ["ball"]
list3 = ["martial-arts", "baseball", "banana", "food", "doctor"]
我现在做的和我不满意的结果是对他们的绝对比较。
score = 0
for i in query:
if i in list1:
score += 1
score_of_list1 = score*100//len(list1)
我找到了一个可能对我有帮助的图书馆 fuzzywuzzy , 但我在想你是否有任何其他建议。
最佳答案
如果您正在寻找一种方法来查找字符串之间的相似性,这个 SO question建议 Levenshtein distance作为这样做的一种方法。
有一个solution准备好了,它也存在于Natural Language Tool Kit中图书馆。
naive 集成将是(我使用随机只是为了得到一个结果。这显然没有意义):
#!/usr/bin/env python
query = ["football", "basketball", "martial arts", "baseball"]
lists = [["apple", "football", "basketball court"], ["ball"], ["martial-arts", "baseball", "banana", "food", "doctor"]]
from random import random
def fake_levenshtein(word1, word2):
return random()
def avg_list(l):
return reduce(lambda x, y: x + y, l) / len(l)
for l in lists:
score = []
for w1 in l:
for w2 in query:
score.append(fake_levenshtein(w1, w2))
print avg_list(score)
祝你好运。
关于python - 两个带有字符串的列表的相似度分数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22321831/