我一直在尝试让单词级语言模型在 lingpipe 上工作。我遇到的所有示例和教程都展示了字符-n-语法模型。如何使用 lingpipe 训练单词级模型,然后使用该模型在其他文档上进行测试?
此外,我注意到 TokenizedLM 不可序列化。有没有办法可以保存它并稍后加载,而不必每次都进行重新训练?
最后,是否有任何其他框架/工具可以让我无需编写任何代码即可完成此操作?
最佳答案
我不了解 Java,但如果您不受该编程语言的束缚,可以使用 Python NLTK ,其中有 tokenizers和 ngram-models还有很多other stuff 。还有一个book它可以用作介绍并获得概述。
关于java - 使用 Lingpipe 进行词级语言模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8031657/