java - 使用 OpenNLP 训练大数据集

标签 java nlp opennlp

我有包含 .train 文件的数据集,其非常大的文件(例如 100MB 文件)。我想执行 NER 来提取组织名称。我使用 OpenNLP 进行训练。

示例代码:

TokenNameFinderModel model=NameFinderME.train("en","organization",
              sampleStream,Collections.<String, Object>emptyMap()); 

但我收到错误:ArrayIndexOutofBoundException

有没有办法使用 openNLP 训练大型数据集进行 NER?你能发布示例代码吗?

当我在 Google 上搜索时,我发现 Class GIS 和 DataIndexer 接口(interface)可用于训练大型数据集,但我知道如何训练吗?你能发布示例代码吗?

最佳答案

我可以毫无问题地创建具有更大数据的模型。您的 .train 文件中的标记可能有问题。另外,如果您可以发布完整的异常,会有帮助吗?

为了训练更大的模型,我只需校准截止值并增加 Java 内存。

关于java - 使用 OpenNLP 训练大数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13718026/

相关文章:

java - Apache OpenNLP POSModel(URL) 构造函数

java - RecyclerView 中的多个 View

nlp - 如何使用nlp java提取主语动词宾语

java - worklight 多线程/servlet上下文调用适配器

parsing - 如何遍历NLTK树对象?

python - 使用 NLTK 为中文运行 StanfordPOSTagger 时出现意外格式

java - 如何在 OpenNLP 中实现一个好的 Pronoun Resolver 算法?

java - 如何从 Apache OpenNLP 中的 'binary file' 获取拼写更正的标记?

java - 如何在Java中实现彩色petri网 "binding"?

java - 导入到Eclipse以使用新API编写MapReduce程序的正确jar文件是什么?