machine-learning - 拼写检查器使用语言模型

标签 machine-learning nlp spell-checking hunspell

我寻找可以使用语言模型的拼写检查器。

我知道有很多好的拼写检查器,例如 Hunspell ,但是据我所知,它与上下文无关,因此它只是基于标记的拼写检查器。

例如,

我舔吃香蕉

所以在基于标记的级别上根本没有拼写错误,所有单词都是正确的,但句子中没有任何意义。然而,“智能”拼写检查器会识别出“lick”实际上是正确书写的单词,但可能是作者的意思是“like”,然后句子中有一个含义。

我在特定领域有一堆正确书写的句子,我想训练“智能”拼写检查器来识别拼写错误并学习语言模型,这样它就会识别出即使认为“lick”写得正确,但是作者的意思是“喜欢”。

我没有看到 Hunspell 有这样的功能,你能推荐任何其他可以做到这一点的拼写检查器吗?

最佳答案

参见"The Design of a Proofreading Software Service"拉斐尔·马奇着。他描述了他的方法的数据源(维基百科、博客等)和算法(基本上是比较概率)。本系统来源,After the Deadline ,可用,但不再积极维护。

关于machine-learning - 拼写检查器使用语言模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23055468/

相关文章:

python - 数据不平衡 : undersampling or oversampling?

python - 如何在 Python 中对 IsolationForest 模型执行 "save"操作?

java - Mallet 主题建模 API - 如何确定所需的间隔数或最适合优化的间隔数?

machine-learning - 微调手套嵌入

iphone - 在 iPhone 应用程序中关闭拼写检查器

python - 验证码识别准确率低

Python 一个开源的单词列表,按价或类别进行比较

c++ - 简单的拼写检查算法

页面加载时的 HTML 5 拼写检查

python - model_arima_fit.plot_predict 和 model_arima_fit.forecast 之间有什么区别?