我有一个应用程序可以显示约 100 条关于热门话题的推文。问题是它们中的很多都非常相似(即相同的推文具有不同的 url),这就是为什么我想忽略非常相似的推文。
我正在尝试找到一种使用 python 执行此操作的有效方法。我正在考虑使用:http://code.google.com/p/pylevenshtein/解决这个问题,但我必须将很多推文相互比较,也许有更简单的方法。
最佳答案
尝试 difflib.get_close_matches将每条推文与其他推文进行比较。
关于python - 计算一组字符串(推文)的相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11254331/