我正在用 Java 编写一个名词短语提取器,并尝试使用 OpenNLP 库来标记名词。不幸的是,OpenNLP 的文档非常困惑。目前,我只是对一串英文文本进行标记。该文档让我使用类似于以下的内容初始化 token 模型:
InputStream modelIn = new FileInputStream("en-token.bin");
try {
TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
e.printStackTrace();
}
finally {
if (modelIn != null) {
try {
modelIn.close();
}
catch (IOException e) {
}
}
}
Tokenizer tokenizer = new TokenizerME(model);
String tokens[] = tokenizer.tokenize("An input sample sentence.");
我在这里感到困惑的是“en-token.bin”是什么,以及我到底在哪里可以找到它。它应该包含在压缩文件的原始下载中吗?或者我必须从 OpenNLP 的网站下载它吗?
以下是文档链接:https://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer
如果您能给我任何帮助,我将不胜感激。预先感谢您!
最佳答案
您可以在 http://opennlp.sourceforge.net/models-1.5/ 找到型号。由于许可原因,它们不是 Apache 原始下载的一部分。
关于java - 如何在 OpenNLP 中初始化 token 模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24999186/