speech-recognition - 隐马尔可夫模型 (HMM) 中的三态电话模型

标签 speech-recognition state-machine hidden-markov-models

我想问一下HMM中3态电话模型的含义。本案例基于语音识别系统中的HMM理论。因此,该示例基于 HMM 中语音的声学建模。

我从期刊论文中得到了这张示例图片: http://www.intechopen.com/source/html/41188/media/image8_w.jpg

图 1:声音/s/的三态 HMM

所以,我的问题是:

  1. 3 状态是什么意思?
  2. S1、S2 和 S3 究竟是什么意思? (我知道它是状态,但它代表什么?)
  3. 如何在这个 HMM 状态下表示/s/声音?
  4. 为什么是 3?如果我们有 4 个、5 个或更多状态会发生什么?
  5. 如果/s/只是一个简单的辅音“s/”的发音,那么状态和转换代表有什么用呢?

你们有这个理论的简单解释和例子(图形类比)吗?

谢谢

尼克

最佳答案

what is it mean by 3 state?

描述电话 S 的模型由树状态组成 - S1、S2 和 S3。

what actually S1, S2 & S3 mean? (I know it is state but it represent what?)

S1表示音素S开头的特征向量的概率分布,中间是S2,结尾是S3。概率分布本质上是特征向量的最可能值(电话的这部分听起来如何)和变化(变化的范围)。

How to represent the /s/ sound in this HMM state?

S 声音由整个 HMM 表示,而不仅仅是单个状态。

Why is it 3? what happen if we have 4, 5 or more state?

在连续语音识别中,电话声学受到前面音素和后面音素的影响。因此,将每部手机分为 3 个部分更为精确:一开始从上一部手机过渡,中间稳定,最后过渡到下一部手机。如果电话被隔离且稳定,1 个状态就足够了。也可以在连续语音中使用单个音素的 5 种状态,但这并不能大大提高准确性。

If the sound of /s/ is only a simple sound of consonant "s/", what is the used of the state and transition represent?

见上文。转换表示从一种状态移动到另一种状态的概率,本质上它模拟了手机的长度。

关于speech-recognition - 隐马尔可夫模型 (HMM) 中的三态电话模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28112608/

相关文章:

c# - 状态机问题

python - 如何从具有转换和计数的字典创建转换矩阵

machine-learning - 使用条件随机场进行序列学习?

java - 如何在java中使用sphinx和freetts管理hello.gram以进行对话

android - Android ICS 上的 App 内语音触发控制和离线语音识别

javascript - 更改语音使用语音识别合成语音

c++ - QStateMachine 的同步问题

c# - 在 C# 中通过语音进行谷歌搜索

c# - 如何在接口(interface) C# 中调用事件?

python - Scikit 的隐马尔可夫模型接受加起来不等于 1 的观察概率