java - 使用 Lingpipe 进行词级语言模型

我一直在尝试让单词级语言模型在 lingpipe 上工作。我遇到的所有示例和教程都展示了字符-n-语法模型。如何使用 lingpipe 训练单词级模型，然后使用该模型在其他文档上进行测试？

此外，我注意到 TokenizedLM 不可序列化。有没有办法可以保存它并稍后加载，而不必每次都进行重新训练？

最后，是否有任何其他框架/工具可以让我无需编写任何代码即可完成此操作？

最佳答案

我不了解 Java，但如果您不受该编程语言的束缚，可以使用 Python NLTK ，其中有 tokenizers和 ngram-models还有很多other stuff 。还有一个book它可以用作介绍并获得概述。

关于java - 使用 Lingpipe 进行词级语言模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8031657/

相关文章：

python - 如何从gensim中的文档中删除停用词？