- 我需要量化长列表中所有句子与单个句子的相似度。也许使用 Levenshtein 或 difflib。
- 然后,我必须删除列表中超出某个给定阈值的句子,例如 difflib 中的 90%。
你们能帮忙吗? 谢谢!
最佳答案
>>> mylist = ['ham and eggs', 'spam and legs', "it's time to die, mr bond!"]
>>> import difflib
>>> close_matches = difflib.get_close_matches('spam and eggs', mylist)
>>> close_matches
['spam and legs', 'ham and eggs']
>>> set(mylist) - set(close_matches)
set(["it's time to die, mr bond!"])
关于python - 计算列表中所有元素与单个句子的相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13696337/