nlp - 为什么形容词的词性标签是 'JJ' ?

标签 nlp

表示形容词 POS 的 JJ 标签的词源是什么?我无法在网上找到任何引用资料。有多个资源列出了所有标签,但没有一个资源描述了原因。

最佳答案

可能无法得到官方答复。 JJused since the Brown corpus ,并且在可追溯到 at least 1981 的出版物中不加评论地出现。 (就在 1979 年 Form C“修订和扩大”版出版之后)。

根据这个record of the corpus ,表格 C 随附的作者的主要出版物是 manual, available here 。它包含该列表,其中有大量关于如何分类单词的解释,但没有解释如何制作标签。

审核后Role of the Brown Corpus in the History of Corpus Linguistics (Olga Kholkovskaia, 2017) ,我同意作者普遍关注的是海量的编译和标注方法而不是评论。 1967年的经典著作《当今美式英语的计算分析》主要是频率表,其中没有“形容词”或JJ的实例。 因此,我没有找到主要作者 Wilson 和 Kucera 讨论他们对标签选择的出版物,他们都已于 2000 年代去世。

这限制了我们的猜测。作者有 82 个标签,这些标签需要简短、易记(标签过程部分是手动的),并允许附加各种修饰符而不会造成困惑。元音对此毫无用处,表中的每个词性都至少包含一个。动词 (VB) 和名词 (NN) 使用第一个和最后一个字母,而其他的则可能使用首字母缩写(并列连词 CC、外国语单词FW),音节首字母(模态MD,预定词PDT),首字母(所有格POS),任意关联(感叹词 UH)。

形容词的 JJ 在使用短语中缺少的字母时很奇怪,并且不像 UH、所有格 P$ 那样具有直观意义,或复数 S - 但这并不是最奇怪的标签选择,即使在 reduced Penn Treebank table 中也是如此。 。也许有人想匹配 NN 的风格,并将形容词中第一个相对不常见的字母加倍。任何更详细的答案可能只能通过找到未发表的笔记或仍然活着的同事来实现。

关于nlp - 为什么形容词的词性标签是 'JJ' ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56161468/

相关文章:

python - 字符串的常量部分

java - OpenNLP-文档分类器-如何根据状态对文档进行分类;文档语言不是英语,也是默认功能吗?

python - with.ai 中的图像上传功能,无需使用 facebook Messenger

language-agnostic - 如何评估文本摘要工具?

python - 在 pandas DataFrame 列中存储列表

machine-learning - 使用负采样实现 word2vec

apache - UIMA ruta 中的模糊性

java - import edu.stanford.nlp.pipeline.StanfordCoreNLP 无法解析?

python - NLTK CFG 多个单词语法

r - 如何将多个 pdf 文件转换为一个语料库以在 R 中进行文本分析?