java - CoreNLP MaxentTagger 架构选项 - 含义和有效性

标签 java stanford-nlp pos-tagger

我正在尝试从 CoreNLP 库训练自定义词性标注器(具体来说,使用 edu.stanford.nlp.tagger.maxent.MaxentTagger 类),并且正在努力了解这些选项的含义(我不是语言学家)以及最有效的组合是什么。我尝试过使用 CoreNLP 库的开箱即用下载附带的一些默认选项,并通过一些更改(例如 bidrelational 等)对其进行了调整,但没有看到标签准确性的明显改进。我已通读the ExtractorFrames JavaDoc page ,但他们似乎使用了我不太明白的速记。所以:

  • 不同选项组的真正含义是什么?
  • 是否存在从实践中有意义的组合?如果某些组合没有意义,我希望避免花费大量时间尝试随机组合。

最佳答案

Chris Manning 在 Coursera video 中更详细地解释了词性标注器的一些最常用功能。 。

关于合理的功能集:这在很大程度上取决于语言。您可以在 GitHub 上查看我们随标记器一起提供的各种型号的配置。如果您为其构建标记器的语言有一个配置,那么我会使用该配置作为运行实验的起点。

关于java - CoreNLP MaxentTagger 架构选项 - 含义和有效性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28703667/

相关文章:

java - 使用 Gson 将 Json 解析为具有通用字段的项目列表

java - 在 Android 中获取 View 的 alpha/不透明度

java - 使用 Stanford NLP : Filter unrequired words and characters 进行文本标记化

python - NLTK CoreNLPDependencyParser : Failed to establish connection

python - NN VBD IN DT NNS RB 在 NLTK 中是什么意思?

python - 确定句子中缺失词所属的位置

nlp - 以conll格式输出结果(POS-tagging, stanford pos tagger)

java - 为什么Java提供规范而不是实现

java - 斯坦福解析器 - 用金融工具标记

java - 通过 -cp 而不是 -jar 运行 spring boot 应用程序 jar