python - PocketSphinx python 和设置声学模型?

标签 python speech-recognition cmusphinx

我正在 speech recognition 阅读本指南,它提到我需要三个项目来进行语音识别:声学模型、语言模型、语音词典。

我想开始玩这个 python demo ,它使用 Gstreamer 从麦克风中捕获并重新采样为 8kHz、16 位 PCM 音频。

我看到可以指定语言模型和语音词典,我用的是【cmu提供的】:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/

但是我很困惑应该在哪里指定声学模型? gstreamer 是否有我隐式使用的自己的声学模型?我希望使用此处提供的声学模型以获得更好的结果:

 http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/

(对超链接感到抱歉。我不能发布超过 2 个代表少于 10 的链接)

最佳答案

But I am confused where I should specify the acoustic model?

您可以使用 gstreamer 元素的 hmm 属性指定模型。就像教程中介绍的一样

asr.set_property('lm', '/home/user/mylanguagemodel.lm')

你可以使用

asr.set_property('hmm', '/home/user/acoustic_model_folder')

Does gstreamer have its own acoustic model I'm implicitly using?

是的,默认情况下它使用来自发行版的美国英语模型 hub4wsj_sc_8k

关于python - PocketSphinx python 和设置声学模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13653379/

相关文章:

android - Android 上的离线谷歌语音识别

objective-c - SFTranscriptionSegment 的时间戳始终为 0

c - Sphinxbase 制作/安装失败

python - python pocketsphinx 中的单词时间戳

python - 避免 Django ModelForm 和 Django Model 之间的重复

python - 将索引号转换为 int (Python)

python - 使用python更改dxf文件中的图层名称

python - 如何在异常中打印有问题的行

matlab - 频谱分析

java - 当有人用 JAVA 说话时尝试将静态图像发送到 'talk'