machine-learning - 名词短语分类模型?

标签 machine-learning nlp hidden-markov-models

我需要一个模型来完成以下任务:

带有词性标记的单词序列。我想判断这个单词序列是否是名词短语。

我能想到的一个模型是HMM。

对于那些属于名词短语的序列,我们训练一个 HMM (HMM+)。对于那些不是名词短语的,我们尝试使用 HMM(HMM-)。当我们对序列进行预测时,我们可以计算P(sequence|HMM+)和P(sequence|HMM-)。如果前者较大,我们认为该短语是名词短语,否则不是。

你对此有何看法?你还有其他适合这个问题的模型吗?

最佳答案

据我了解,您已经有了单词序列的 POS 标签。一旦有了单词序列的标签,如果该序列是 NP,则不需要使用 HMM 来分类。您所需要做的就是寻找以下形式的模式:

  1. 限定词后接名词

  2. 形容词后跟名词

  3. 限定词后跟形容词,后跟名词

等等

正如有人刚刚提到的,HMM 用于获取新单词序列的 POS 标签。但为此,您需要一个带标签的语料库来训练 HMM。 NLTK 软件中提供了一些标记语料库。

如果您的序列已被标记,则只需使用上一个答案中提到的语法规则即可。

关于machine-learning - 名词短语分类模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19824223/

相关文章:

python - 我们可以通过 HMM 进行监督学习吗?

python - 使用隐马尔可夫模型进行情感分析

matlab - 如何在 Matlab 中将 svmtrain() 与自定义内核一起使用?

python - Keras根据阈值将中间层的输出设置为0或1

python - 如何在 PyBrain 中进行有监督的深度信念训练?

python - 当使用k个最近邻居时,有没有办法检索所使用的 "neighbors"?

android - 如何在语义上比较两个句子?

从文本中提取日期

python - 如何使用Parts-of-Speech来评估语义文本相似度?

r - 获取 R 中隐马尔可夫模型 (MHMM) 混合的每个簇内的观测值(包 seqHMM)