java - 改进 CoreNLP 词性标注器和 NER 标注器？

CoreNLP 词性标注器和名称实体识别标注器开箱即用，非常好，但我想进一步提高准确性，以便整个程序运行得更好。为了更多地解释准确性——在某些情况下 POS/NER 被错误标记。例如:

而不是 VB* 或类似的东西，因为它是一个类似动词的短语(我不是语言学家，所以对此持保留态度)。

那么提高准确度的最佳方法是什么？

最佳答案

首先，“Oversaw car manufacturing”甚至不是一个句子，它本身也没有多大意义 :-) 这些模型通常是在整个句子上训练的。如果您在此处输入“He oversaw car manufacturing”[1]，它使用的是 CoreNLP，那么您会得到更理智的结果。

让我们假设您的结果仍然不准确。除非您使用一些小示例模型，否则没有“更好”的模型本身。它总是取决于领域，甚至“默认”模型也是在某些领域训练的，例如报纸。

很可能您必须自己训练模型，不是使用异常(exception)规则，而是针对特定的文本域，例如谈论汽车或制造，或具有特定文体等的文本。

关于java - 改进 CoreNLP 词性标注器和 NER 标注器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25796914/