speech-recognition - 隐马尔可夫模型 (HMM) 中的三态电话模型

我想问一下HMM中3态电话模型的含义。本案例基于语音识别系统中的HMM理论。因此，该示例基于 HMM 中语音的声学建模。

图 1:声音/s/的三态 HMM

所以，我的问题是:

你们有这个理论的简单解释和例子(图形类比)吗？

谢谢

尼克

最佳答案

what is it mean by 3 state?

描述电话 S 的模型由树状态组成 - S1、S2 和 S3。

what actually S1, S2 & S3 mean? (I know it is state but it represent what?)

S1表示音素S开头的特征向量的概率分布，中间是S2，结尾是S3。概率分布本质上是特征向量的最可能值(电话的这部分听起来如何)和变化(变化的范围)。

How to represent the /s/ sound in this HMM state?

S 声音由整个 HMM 表示，而不仅仅是单个状态。

Why is it 3? what happen if we have 4, 5 or more state?

在连续语音识别中，电话声学受到前面音素和后面音素的影响。因此，将每部手机分为 3 个部分更为精确:一开始从上一部手机过渡，中间稳定，最后过渡到下一部手机。如果电话被隔离且稳定，1 个状态就足够了。也可以在连续语音中使用单个音素的 5 种状态，但这并不能大大提高准确性。

If the sound of /s/ is only a simple sound of consonant "s/", what is the used of the state and transition represent?

见上文。转换表示从一种状态移动到另一种状态的概率，本质上它模拟了手机的长度。

关于speech-recognition - 隐马尔可夫模型 (HMM) 中的三态电话模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28112608/