来自wav文件的C#语音识别,我需要获取每个单词的时间 - lipsync

标签 c# speech-recognition wav timespan

我已经从 wav 文件构建了一个语音识别解决方案,并将单词分开以用于口型同步应用程序,我需要从语音识别系统获得的是单词 + wav 文件中的时间。我需要获取每个单词甚至字符(字母)的时间,任何类型的时间都可以在“SpeechRecognizedEventArgs”事件下完成,我试过“SpeechDetected”它返回检测开始,可能有效。我试过:

static void recognizer_SpeechDetected(object sender, SpeechDetectedEventArgs e)
{
Console.WriteLine("  Speech detected at AudioPosition = {0}", e.AudioPosition);
// TimeSpan interval = new TimeSpan(0, 0, 01);
// Console.WriteLine(interval.ToString())
}

我在音频开始前只有几毫秒。

recoginzed 事件中的 AudioPosition 为我提供了 wav 文件的完整时间。

我在想什么 如果没有其他方法可以通过文字识别事件来获取时间,或者第二个选项是玩wav 文件,如 2 秒,识别一个或一半的单词,然后完成。这一切都是为了获得某种时机。

也许所有这些都是复杂的想法,因为我不懂 C#。

最佳答案

如果您不想自己编写所有代码,这家公司提供的产品可以满足您的描述:

http://www.freakngenius.com/

如果您确实想制定自己的解决方案,那么一种想法可能是查看不同点的音频音量。音量下降可能表示单词之间有中断。

关于来自wav文件的C#语音识别,我需要获取每个单词的时间 - lipsync,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13340430/

相关文章:

c# - 沿 XAML Shapes.Path 获取点

c# - 如何将语音识别添加到 Unity 项目?

c# - 如何以编程方式将 2 个或多个 .WAV 文件连接在一起?

c - 在波形文件上使用 KissFFT

python - 通过低通滤波器后,音频文件听起来不佳/嘈杂

c# - ASMX Web 服务 - "This web service is using http://tempuri.org/as its default namespace."消息 - 但它不应该是

c# - 元组实现

c# - 在 C# 中呈现 MediaWiki 的最佳方法?

python - 提高 Google Cloud Speech-to-Text 的准确性

python - 如何安装 PyAudio 0.2.11 Fedora