我认为 Google 的语音转文本工具(Google Voice 语音邮件自动转录、YouTube 视频自动字幕等)令人印象深刻。
我确实查看了 Google 是否通过 API 提供了它,但似乎他们没有(不是我责怪他们!)。不过,提供语音到文本功能的云计算服务会很酷。
是否有某种“黑客”可以用来访问文本的语音。我的架构基本上归结为这一点 - 一个 15-20 秒的短 wav/mp3/其他剪辑作为输入,输出是纯文本。
有什么想法吗?
最佳答案
有很多语音到文本 API。仅仅因为谷歌没有提供他们的,并不意味着你不走运。
这是一个很好的 C#。如果您的平台不是 .NET,您可以搜索其他平台。
http://cmusphinx.sourceforge.net/
关于speech-recognition - 是否有语音转文本 API 或一些 "hack",我可以通过它使用 Google 的语音转文本工具?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2815076/