java - 如何在 OpenNLP 中初始化 token 模型？

我正在用 Java 编写一个名词短语提取器，并尝试使用 OpenNLP 库来标记名词。不幸的是，OpenNLP 的文档非常困惑。目前，我只是对一串英文文本进行标记。该文档让我使用类似于以下的内容初始化 token 模型:

InputStream modelIn = new FileInputStream("en-token.bin");

try {
TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
   e.printStackTrace();
}
finally {
  if (modelIn != null) {
    try {
      modelIn.close();
    }
    catch (IOException e) {
    }
 }
}

Tokenizer tokenizer = new TokenizerME(model);

String tokens[] = tokenizer.tokenize("An input sample sentence.");

我在这里感到困惑的是“en-token.bin”是什么，以及我到底在哪里可以找到它。它应该包含在压缩文件的原始下载中吗？或者我必须从 OpenNLP 的网站下载它吗？

以下是文档链接:https://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer

如果您能给我任何帮助，我将不胜感激。预先感谢您!

最佳答案

您可以在 http://opennlp.sourceforge.net/models-1.5/ 找到型号。由于许可原因，它们不是 Apache 原始下载的一部分。

关于java - 如何在 OpenNLP 中初始化 token 模型？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24999186/

上一篇：java - 编译器的输出与 OCAJP 准备书不同重载方法

下一篇：java - 尝试使用 Java 解析 XML 数据 - 出现错误 : "The method getNodeType() is undefined for the type NodeList"

java - 如何计算延迟

java - 从Java应用程序启动Flume Agent

C - 关于 EOF 功能

c++ - OpenCV 3.0 - 错误 : (-215) scn == 3 || scn == 4 in function ipp_cvtColor

php - 限制一次在 PHP 中下载 1 个

Java多连接下载

java - 在 Java 中获取主机名的推荐方法

python-2.7 - 如何在 Chrome 中使用 Selenium + Python 绑定(bind)控制文件的下载

java - 创建一个动态 self 更新的程序

java - 如何在 OpenNLP 中初始化 token 模型？

上一篇：java - 编译器的输出与 OCAJP 准备书不同 重载方法

下一篇：java - 尝试使用 Java 解析 XML 数据 - 出现错误 : "The method getNodeType() is undefined for the type NodeList"

上一篇：java - 编译器的输出与 OCAJP 准备书不同重载方法