java - 如何在 OpenNLP 中初始化 token 模型?

标签 java file-io download opennlp

我正在用 Java 编写一个名词短语提取器,并尝试使用 OpenNLP 库来标记名词。不幸的是,OpenNLP 的文档非常困惑。目前,我只是对一串英文文本进行标记。该文档让我使用类似于以下的内容初始化 token 模型:

InputStream modelIn = new FileInputStream("en-token.bin");

try {
TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
   e.printStackTrace();
}
finally {
  if (modelIn != null) {
    try {
      modelIn.close();
    }
    catch (IOException e) {
    }
 }
}

Tokenizer tokenizer = new TokenizerME(model);

String tokens[] = tokenizer.tokenize("An input sample sentence.");

我在这里感到困惑的是“en-token.bin”是什么,以及我到底在哪里可以找到它。它应该包含在压缩文件的原始下载中吗?或者我必须从 OpenNLP 的网站下载它吗?

以下是文档链接:https://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer

如果您能给我任何帮助,我将不胜感激。预先感谢您!

最佳答案

您可以在 http://opennlp.sourceforge.net/models-1.5/ 找到型号。由于许可原因,它们不是 Apache 原始下载的一部分。

关于java - 如何在 OpenNLP 中初始化 token 模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24999186/

相关文章:

java - 即使我的路径在href中正确,也无法在Chrome浏览器中找到我的CSS文件

java - 如何计算延迟

java - 从Java应用程序启动Flume Agent

C - 关于 EOF 功能

c++ - OpenCV 3.0 - 错误 : (-215) scn == 3 || scn == 4 in function ipp_cvtColor

php - 限制一次在 PHP 中下载 1 个

Java多连接下载

java - 在 Java 中获取主机名的推荐方法

python-2.7 - 如何在 Chrome 中使用 Selenium + Python 绑定(bind)控制文件的下载

java - 创建一个动态 self 更新的程序