java - CoreNLP MaxentTagger 架构选项 - 含义和有效性

标签 java stanford-nlp pos-tagger

我正在尝试从 CoreNLP 库训练自定义词性标注器(具体来说，使用 edu.stanford.nlp.tagger.maxent.MaxentTagger 类)，并且正在努力了解这些选项的含义(我不是语言学家)以及最有效的组合是什么。我尝试过使用 CoreNLP 库的开箱即用下载附带的一些默认选项，并通过一些更改(例如 bidrelational 等)对其进行了调整，但没有看到标签准确性的明显改进。我已通读the ExtractorFrames JavaDoc page ，但他们似乎使用了我不太明白的速记。所以:

不同选项组的真正含义是什么？
是否存在从实践中有意义的组合？如果某些组合没有意义，我希望避免花费大量时间尝试随机组合。

最佳答案

Chris Manning 在 Coursera video 中更详细地解释了词性标注器的一些最常用功能。。

关于合理的功能集:这在很大程度上取决于语言。您可以在 GitHub 上查看我们随标记器一起提供的各种型号的配置。如果您为其构建标记器的语言有一个配置，那么我会使用该配置作为运行实验的起点。

关于java - CoreNLP MaxentTagger 架构选项 - 含义和有效性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28703667/

上一篇：java - primefaces 形式和异常，如何重置为旧值

下一篇：java - 按数字顺序对字节数组进行排序

相关文章：

java - 使用 Gson 将 Json 解析为具有通用字段的项目列表

java - 在 Android 中获取 View 的 alpha/不透明度

java - 使用 Stanford NLP : Filter unrequired words and characters 进行文本标记化

python - NLTK CoreNLPDependencyParser : Failed to establish connection

python - NN VBD IN DT NNS RB 在 NLTK 中是什么意思？

python - 确定句子中缺失词所属的位置

nlp - 以conll格式输出结果(POS-tagging, stanford pos tagger)

java - 为什么Java提供规范而不是实现

java - 斯坦福解析器 - 用金融工具标记

java - 通过 -cp 而不是 -jar 运行 spring boot 应用程序 jar