python - 计算一组字符串(推文)的相似度

标签 python string levenshtein-distance

我有一个应用程序可以显示约 100 条关于热门话题的推文。问题是它们中的很多都非常相似(即相同的推文具有不同的 url),这就是为什么我想忽略非常相似的推文。

我正在尝试找到一种使用 python 执行此操作的有效方法。我正在考虑使用:http://code.google.com/p/pylevenshtein/解决这个问题,但我必须将很多推文相互比较,也许有更简单的方法。

最佳答案

尝试 difflib.get_close_matches将每条推文与其他推文进行比较。

关于python - 计算一组字符串(推文)的相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11254331/

相关文章:

javascript - 不熟悉的字符串编码(Base64?) - 尝试保存和使用 .3gp 文件的字符串内容

c - C中的字符串回文

algorithm - 最小差异补丁算法

java - 最短编辑距离?我需要它吗?

Python-Levenshtein 距离错误 "Assertion failed!"

python - 使用数组条目存储数据框

python - 检测 postgresql 数据库中子网重叠的最佳方法

python - Tensorflow:未启用任何 MLIR 优化 channel (注册 1)

python - 在 Mac Os X Mavericks (10.9) 上安装 Pillow for Python 3.4

ruby-on-rails - 字符串:用 * 号屏蔽最后 n 个字符