python - 纠正文本中错别字的最佳算法

标签 python string algorithm nlp pattern-matching

我有一个词库列表和一个有拼写错误(拼写错误)的文本,我想根据库列表更正单词拼写错误

例如

在单词列表中:

listOfWord = [...,"halo","saya","sedangkan","semangat","cemooh"..];

这是我的字符串:

string = "haaalllllllooo ssya sdngkan ceemoooh , smngat semoga menyenangkan"

我想将拼写错误更改为正确的,例如:

string = "halo saya sedangkan cemooh, semangat semoga menyenangkan"

检查列表中每个单词的最佳算法是什么,因为我在列表中有数百万个单词并且有很多可能性

最佳答案

这取决于您的数据存储方式,但您可能希望使用像 Aho–Corasick 这样的模式匹配算法。 .当然,这假设您的输入数据结构是 Trie。 Trie一个非常节省空间的存储容器,用于存放您可能也感兴趣的单词(同样,取决于您的环境。)

关于python - 纠正文本中错别字的最佳算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45026607/

相关文章:

python - 为什么python要导入低版本的Numpy?

python - 在文件中查找单词

c - 为什么从 Linux 模块读取可以逐字符读取,但不能读取整个字符串

php - 无法在 PHP 中设置变量类型

python - python中多维搜索的最佳算法

python - 使用假设在 fixed_dictionaries 中生成两个等长列表

python - 从代码注入(inject)中传递给子进程的参数是否安全?

c - isdigit() 问题; - scanf 验证器

string - 使用扩展功能将String中的每个单词大写

algorithm - 如何合并两个有限状态自动机?