<分区>
我有大约 500000 个字符串,我想将它们分组。是否有我可以用来执行此操作的网络门户或网络服务?
字符串是唯一的。 我需要根据相似性将它们分组。
还有其他方法吗?
<分区>
我有大约 500000 个字符串,我想将它们分组。是否有我可以用来执行此操作的网络门户或网络服务?
字符串是唯一的。 我需要根据相似性将它们分组。
还有其他方法吗?
最佳答案
如果您打算将一系列字符串(单词)聚类到相似组中,您需要判断是否需要查找在同一聚类中出现相似编辑 (Levenshtein) 距离的单词。例如,您会说“algorithm”和“alogrithm”应该很有可能出现在同一个集群中。
最先进的建议使用图聚类算法,如
关于python - 我怎样才能聚类大约 500000 个字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33194183/