algorithm - 分词统计方法

标签 algorithm nlp text-segmentation

我想解决分词问题(从没有空格的长字符串中解析单词)。 例如,我们要从 somelongword 中提取单词到 [some, long, word]

我们可以通过使用字典的一些动态方法来实现这一点,但我们遇到的另一个问题是解析歧义。 IE。 orcore => or coreorc ore(我们不考虑短语含义或词性)。所以我考虑使用一些统计或 ML 方法。

我发现带有训练集的朴素贝叶斯和维特比算法可以用来解决这个问题。你能给我一些关于这些算法在分词问题上的应用的信息吗?

UPD:我已经在 Clojure 上实现了这个方法,使用了来自 Peter Norvig 的 code 的一些建议。

最佳答案

我认为 slideshow Peter Norvig 和 Sebastian Thurn 的著作是一个很好的起点。它展示了谷歌在现实世界中的作品。

关于algorithm - 分词统计方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9665501/

相关文章:

javascript - onClick 函数导致 “Uncaught SyntaxError: Unexpected token }” 错误

algorithm - 两个凸多边形的交集

python-3.x - 使用表情符号肤色修饰符标记句子或推文

algorithm - 分区问题蛮力算法

mysql - 哪个数据库可以用来存储NLP引擎处理过的数据

nlp - bert怎么是双向的?

algorithm - 有没有好的开源或者免费的中文分词算法?

algorithm - 如何使用 RealmSwift 解决最大匹配算法中的内存问题?

c# - 如何使用流畅的界面构建序列?

algorithm - 值循环的最小排序