python - 我怎样才能聚类大约 500000 个字符串

标签 python string algorithm cluster-analysis

<分区>

我有大约 500000 个字符串,我想将它们分组。是否有我可以用来执行此操作的网络门户或网络服务?

字符串是唯一的。 我需要根据相似性将它们分组。

还有其他方法吗?

最佳答案

如果您打算将一系列字符串(单词)聚类到相似组中,您需要判断是否需要查找在同一聚类中出现相似编辑 (Levenshtein) 距离的单词。例如,您会说“algorithm”和“alogrithm”应该很有可能出现在同一个集群中。

最先进的建议使用图聚类算法,如

关于python - 我怎样才能聚类大约 500000 个字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33194183/

相关文章:

python - 用于匹配未被特定字符包围的字符的正则表达式模式

python - 找到具有最低分数的所需项目的集合

java - 我怎样才能加快我的多数元素问题集的以下算法?

python:如何拥有一个属性和一个setter函数来检测值发生的所有变化

python - Groupby 多年来每个月的最大值和最小值

python - 结构打包/拆包类设计

c - 如果输入的字符串长度大于字符数组的大小,那么打印的字符串长度如何大于字符数组的大小?

python - Python 中的运行长度编码

c# - String.Substring解释

c - 合并给定空间中的元素数组