machine-learning - 名词短语分类模型？

我需要一个模型来完成以下任务:

带有词性标记的单词序列。我想判断这个单词序列是否是名词短语。

我能想到的一个模型是HMM。

对于那些属于名词短语的序列，我们训练一个 HMM (HMM+)。对于那些不是名词短语的，我们尝试使用 HMM(HMM-)。当我们对序列进行预测时，我们可以计算P(sequence|HMM+)和P(sequence|HMM-)。如果前者较大，我们认为该短语是名词短语，否则不是。

你对此有何看法？你还有其他适合这个问题的模型吗？

最佳答案

据我了解，您已经有了单词序列的 POS 标签。一旦有了单词序列的标签，如果该序列是 NP，则不需要使用 HMM 来分类。您所需要做的就是寻找以下形式的模式:

等等

正如有人刚刚提到的，HMM 用于获取新单词序列的 POS 标签。但为此，您需要一个带标签的语料库来训练 HMM。 NLTK 软件中提供了一些标记语料库。

如果您的序列已被标记，则只需使用上一个答案中提到的语法规则即可。

关于machine-learning - 名词短语分类模型？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19824223/

相关文章：

python - 我们可以通过 HMM 进行监督学习吗？