c# - 如何确定SpeechRecognitionEngine识别词的位置?

标签 c# speech-recognition

我正在探索 SpeechRecognitionEngine 的功能,我的最终目标是输入一个 WAV 文件和该 WAV 文件的转录,并输出 WAV 文件开头的位置 (理想情况下,结束)。

我可以让引擎成功识别短语,但我无法理解如何在单词开始时检索音频位置,而不是在假设或识别识别时等。

如果您好奇这有什么意义,那就是自动化口型同步动画工作流程。

感谢您的宝贵时间。

最佳答案

正确的音频与文本对齐是一项需要不同于语音识别的特定算法的任务。您可以使用 ASR 引擎模拟一些对齐功能,但效果会很好。

对齐算法的实现可以查看CMUSphinx语音识别工具包:

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

http://www.bluevincent.com/2011/02/speech-to-text-using-java.html

或者您可以尝试像 Nexiwave 那样的商业公司服务

http://nexiwave.com/index.php/applications/transcription-timestamping

关于c# - 如何确定SpeechRecognitionEngine识别词的位置?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8392026/

相关文章:

c# - 在 WPF RichTextBox 中插入图像

c# - File.Copy() 在多线程 C# 程序中复制损坏的文件

android - 语音或语音识别器是否有可能从说话者那里获取输入(来电语音)?

java - 没有谷歌弹出窗口的Android应用程序中的连续语音识别

android - 谷歌语音识别库或 API

c# - 无法编译包含 "<"和 ">"的 C# 代码

c# - automapper 缺少类型映射配置或不支持的映射。?

c# - 子域的重写规则未触发

c# - Google Speech API v2 结果为空白

python - Python 3.4 的语音识别好用吗?