我想解决分词问题(从没有空格的长字符串中解析单词)。
例如,我们要从 somelongword
中提取单词到 [some, long, word]
。
我们可以通过使用字典的一些动态方法来实现这一点,但我们遇到的另一个问题是解析歧义。 IE。 orcore
=> or core
或 orc ore
(我们不考虑短语含义或词性)。所以我考虑使用一些统计或 ML 方法。
我发现带有训练集的朴素贝叶斯和维特比算法可以用来解决这个问题。你能给我一些关于这些算法在分词问题上的应用的信息吗?
UPD:我已经在 Clojure 上实现了这个方法,使用了来自 Peter Norvig 的 code 的一些建议。
最佳答案
我认为 slideshow Peter Norvig 和 Sebastian Thurn 的著作是一个很好的起点。它展示了谷歌在现实世界中的作品。
关于algorithm - 分词统计方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9665501/