java - NLP中的数据字典是什么？

我是 NLP 及其概念的新手。我目前正在尝试使用 OpenNLP来自 Apache 。当我尝试使用其解析器工具时，如 blog 所示，我得到如下输出:

Input: Shutdown all active devices

Output: 
(TOP(VP(VB Shutdown)
(NP(DT all)
    (JJ active)
    (NNS devices))))

我无法理解所有缩写词的含义。其中一些我可以从Stanford's OpenNLP implementation中理解一样的。但不是全部。

任何人都可以指出一些正确的方向，让我知道如何理解它，以及如何更好地理解我的代码如何理解所说的内容。

最佳答案

首先，学习任何学科都需要时间，所以不要急于求成，否则你会把自己弄糊涂的。您看到的输出语法是一棵树，它采用一系列列表和嵌入列表的形式。它可能会让您想起流行的 LISP 语法，例如 Scheme或 Clojure .

(TOP(VP(VB Shutdown)
(NP(DT all)
    (JJ active)
    (NNS devices))))

单词/列表左侧的标签是所谓的 POS ( Part-of-Speech ) 标签，代表单词所属的语法类别，本质上是词类消歧。作为 F1-Scores 高达 90% 的学科，词性标注仍然是自然语言处理中非常困难的研究领域之一。您构建的树片段(带有下面的列表)如下所示:

(TOP(Verb, non-3rd-person(Verb Shutdown)
(Noun-Phrase (Determiner all)
    (Adjective active)
    (Noun-plural devices))))

词性标记是语义分析或命名实体识别等任务的重要语言特征。一些值得学习的好资源包括:

词性标签列表(Penn Treebank语料库)

关于java - NLP中的数据字典是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32812342/