java - 使用 Lingpipe 进行词级语言模型

标签 java nlp classification document-classification

我一直在尝试让单词级语言模型在 lingpipe 上工作。我遇到的所有示例和教程都展示了字符-n-语法模型。如何使用 lingpipe 训练单词级模型,然后使用该模型在其他文档上进行测试?

此外,我注意到 TokenizedLM 不可序列化。有没有办法可以保存它并稍后加载,而不必每次都进行重新训练?

最后,是否有任何其他框架/工具可以让我无需编写任何代码即可完成此操作?

最佳答案

我不了解 Java,但如果您不受该编程语言的束缚,可以使用 Python NLTK ,其中有 tokenizersngram-models还有很多other stuff 。还有一个book它可以用作介绍并获得概述。

关于java - 使用 Lingpipe 进行词级语言模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8031657/

相关文章:

python - 如何从gensim中的文档中删除停用词?

python - 无法理解 Theano 如何在 RNN NLP 中进行分类

c# - 解析 HTML : Adult Classification Systems

python - 如何从具有 2 个输出神经元的 softmax 二元分类器绘制 ROC 曲线?

java - Hamcrest 与 MockMvc : check that key exists but value may be null

java - 尝试更改 CGLib 代理字段值的异常

java - 将 double int[][] 图像减小到更小的尺寸

nlp - 如何将自定义俚语添加到 spaCy 的 norm_exceptions.py 模块中?

java - 如何从 Java 访问 C++ 库 (DLL) 的方法

algorithm - 解释 K-means 的结果