我能够通过 8khz 音频文件获得合理的准确度。现在,如果可以的话,我想尝试更高的采样率。
查看 this page 上提供的声学模型,他们列出:
en-us-8khz.tar.gz
en-us-semi-full.tar.gz
en-us-semi.tar.gz
en-us.tar.gz
写着8khz的显然是8khz采样率的,但是其他三个呢?它们匹配什么采样率?
如果我使用 16khz 音频文件,我需要使用以下哪一个声学模型?
如果文件名中没有采样率,我如何计算声学模型的采样率?
最佳答案
您可以在模型文件夹中打开文件 feat.params 并查找 -upperf
参数。在 8khz 型号中 -upperf
通常为 3500 或 4000。对于 16khz 型号 -upperf
大于 4000,通常为 6800。
关于cmusphinx - 如何区分 8Khz 声学模型和 16Khz 模型之间的区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27571898/