我正在尝试从 CoreNLP 库训练自定义词性标注器(具体来说,使用 edu.stanford.nlp.tagger.maxent.MaxentTagger 类),并且正在努力了解这些选项的含义(我不是语言学家)以及最有效的组合是什么。我尝试过使用 CoreNLP 库的开箱即用下载附带的一些默认选项,并通过一些更改(例如 bidrelational 等)对其进行了调整,但没有看到标签准确性的明显改进。我已通读the ExtractorFrames JavaDoc page ,但他们似乎使用了我不太明白的速记。所以:
- 不同选项组的真正含义是什么?
- 是否存在从实践中有意义的组合?如果某些组合没有意义,我希望避免花费大量时间尝试随机组合。
最佳答案
Chris Manning 在 Coursera video 中更详细地解释了词性标注器的一些最常用功能。 。
关于合理的功能集:这在很大程度上取决于语言。您可以在 GitHub 上查看我们随标记器一起提供的各种型号的配置。如果您为其构建标记器的语言有一个配置,那么我会使用该配置作为运行实验的起点。
关于java - CoreNLP MaxentTagger 架构选项 - 含义和有效性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28703667/