我正在探索 SpeechRecognitionEngine
的功能,我的最终目标是输入一个 WAV 文件和该 WAV 文件的转录,并输出 WAV 文件开头的位置 (理想情况下,结束)。
我可以让引擎成功识别短语,但我无法理解如何在单词开始时检索音频位置,而不是在假设或识别识别时等。
如果您好奇这有什么意义,那就是自动化口型同步动画工作流程。
感谢您的宝贵时间。
最佳答案
正确的音频与文本对齐是一项需要不同于语音识别的特定算法的任务。您可以使用 ASR 引擎模拟一些对齐功能,但效果会很好。
对齐算法的实现可以查看CMUSphinx语音识别工具包:
http://cmusphinx.sourceforge.net/?s=long+audio+alignment
http://www.bluevincent.com/2011/02/speech-to-text-using-java.html
或者您可以尝试像 Nexiwave 那样的商业公司服务
http://nexiwave.com/index.php/applications/transcription-timestamping
关于c# - 如何确定SpeechRecognitionEngine识别词的位置?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8392026/