我想问一下HMM中3态电话模型的含义。本案例基于语音识别系统中的HMM理论。因此,该示例基于 HMM 中语音的声学建模。
我从期刊论文中得到了这张示例图片: http://www.intechopen.com/source/html/41188/media/image8_w.jpg
图 1:声音/s/的三态 HMM
所以,我的问题是:
- 3 状态是什么意思?
- S1、S2 和 S3 究竟是什么意思? (我知道它是状态,但它代表什么?)
- 如何在这个 HMM 状态下表示/s/声音?
- 为什么是 3?如果我们有 4 个、5 个或更多状态会发生什么?
- 如果/s/只是一个简单的辅音“s/”的发音,那么状态和转换代表有什么用呢?
你们有这个理论的简单解释和例子(图形类比)吗?
谢谢
尼克
最佳答案
what is it mean by 3 state?
描述电话 S 的模型由树状态组成 - S1、S2 和 S3。
what actually S1, S2 & S3 mean? (I know it is state but it represent what?)
S1表示音素S开头的特征向量的概率分布,中间是S2,结尾是S3。概率分布本质上是特征向量的最可能值(电话的这部分听起来如何)和变化(变化的范围)。
How to represent the /s/ sound in this HMM state?
S 声音由整个 HMM 表示,而不仅仅是单个状态。
Why is it 3? what happen if we have 4, 5 or more state?
在连续语音识别中,电话声学受到前面音素和后面音素的影响。因此,将每部手机分为 3 个部分更为精确:一开始从上一部手机过渡,中间稳定,最后过渡到下一部手机。如果电话被隔离且稳定,1 个状态就足够了。也可以在连续语音中使用单个音素的 5 种状态,但这并不能大大提高准确性。
If the sound of /s/ is only a simple sound of consonant "s/", what is the used of the state and transition represent?
见上文。转换表示从一种状态移动到另一种状态的概率,本质上它模拟了手机的长度。
关于speech-recognition - 隐马尔可夫模型 (HMM) 中的三态电话模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28112608/