python - 计算一组字符串(推文)的相似度

我有一个应用程序可以显示约 100 条关于热门话题的推文。问题是它们中的很多都非常相似(即相同的推文具有不同的 url)，这就是为什么我想忽略非常相似的推文。

我正在尝试找到一种使用 python 执行此操作的有效方法。我正在考虑使用:http://code.google.com/p/pylevenshtein/解决这个问题，但我必须将很多推文相互比较，也许有更简单的方法。

最佳答案

尝试 difflib.get_close_matches将每条推文与其他推文进行比较。

关于python - 计算一组字符串(推文)的相似度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11254331/