最初我想从头开始编写一个语音识别引擎(支持 50-100 个单词)来支持我的母语。
然而,经过一些研究,我们已经清楚地知道,即使在 1.5 年内提供非常有限的支持,也不可能制造出语音识别引擎。
现在我正在考虑扩展 sphinx 引擎来支持我的语言。是否有可能在 1.5 年内完成,或者对于最后一年的项目来说这工作量太大了。
我正在焦急地等待您对此事的体验。
最佳答案
进行语音识别的时间取决于您的应用程序。
您将需要:
- 定义您想要识别的单词;
- 为这些单词写一本拼音词典;
- 与多位母语人士一起录制单词;
- 验证记录的数据;
- 准备数据来训练声学模型;
- 产生语法或语言模型(在这种情况下需要记录语音平衡的单词/句子);
- 训练声学模型;
- 测试您的系统;
- 对语法和声学模型进行调整和调整(说话人适应);
- 了解如何制作上述所有 9 个主题。 :)
第 10 项是最耗时的任务!!!
答:是的,商业应用3个月内就可以做出来。
Sphinx 是一种可能性,HTK 是一个优秀的开源语音识别系统,可以训练和测试完整的系统。 Julius 是一个开源语音识别器(引擎),使用 HTK 构建的声学和语言模型。
路易斯·尤贝尔
ASR 实验室 - www.asrlabs.com.br
关于speech-recognition - 扩展 Sphinx 以支持本地语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13844054/