我需要一个模型来完成以下任务:
带有词性标记的单词序列。我想判断这个单词序列是否是名词短语。
我能想到的一个模型是HMM。
对于那些属于名词短语的序列,我们训练一个 HMM (HMM+)。对于那些不是名词短语的,我们尝试使用 HMM(HMM-)。当我们对序列进行预测时,我们可以计算P(sequence|HMM+)和P(sequence|HMM-)。如果前者较大,我们认为该短语是名词短语,否则不是。
你对此有何看法?你还有其他适合这个问题的模型吗?
最佳答案
据我了解,您已经有了单词序列的 POS 标签。一旦有了单词序列的标签,如果该序列是 NP,则不需要使用 HMM 来分类。您所需要做的就是寻找以下形式的模式:
限定词后接名词
形容词后跟名词
限定词后跟形容词,后跟名词
等等
正如有人刚刚提到的,HMM 用于获取新单词序列的 POS 标签。但为此,您需要一个带标签的语料库来训练 HMM。 NLTK 软件中提供了一些标记语料库。
如果您的序列已被标记,则只需使用上一个答案中提到的语法规则即可。
关于machine-learning - 名词短语分类模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19824223/