从音频文件中检测特定单词的解决方案是什么?
我有很多音频文件(相同的编解码器),每个文件只有大约 15 秒长。 (注:所有音频文件均为同一人/相同口音)
例如:
test1.mp3 播放你好汤姆,你今天在做什么?
test2.mp3 播放 Hello Paul,你今天在做什么?
test3.mp3 播放 早上好约翰 - 今天天气很好
我需要一种方法来检测每个音频文件中的好天气或你是什么单词。
我可能有 100 个音频文件说“你今天在做什么”,而其他文件则说“你今天在做什么?” - 我只需要知道每个文件的状态/类型是什么..
除了使用语音识别工具之外,还有什么解决方案可以检查频率位是否存在。
最佳答案
您本质上是在问“我如何进行通用语音识别”?
解决办法是:
如果您的平台提供开箱即用的语音识别功能,请使用它。例如,Microsoft Windows 就是这样做的。 http://msdn.microsoft.com/en-us/library/hh323805.aspx
如果您的平台没有,那么您需要集成第三方语音识别包,例如 Lernaut & Hauspie(现在的 Nuance)、Dragon 等。这可能需要付费。
编辑:我已将其标记为 Text-to-speech (voice generation) and speech-to-text (voice recognition) APIs? 的重复项,其中对“我如何进行语音识别”有全面的解答。
关于c# - 声音频率检测?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10434266/