audio - Google语音识别API:每个单词的时间戳？

标签 audio speech-recognition speech-to-text speech google-speech-api

通过对http://www.google.com/speech-api/v2/recognize?...进行请求，可以使用Google的语音识别API来获取音频文件(WAV，MP3等)的转录本

示例:我在WAV文件中说过“一二三五”。 Google API为我提供了这一点:

{
  u'alternative':
  [
    {u'transcript': u'12345'},
    {u'transcript': u'1 2 3 4 5'},
    {u'transcript': u'one two three four five'}
  ],
  u'final': True
}

问题:是否可以获取说出每个单词的时间(以秒为单位)？

以我的例子:

['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.

即在时间00:00:00.23和00:00:00.80之间说了“一个”一词，
在时间00:00:01.03和00:00:01.45(以秒为单位)之间说了“两个”一词。

PS:正在寻找一种支持除英语之外的其他语言的API，尤其是法语。

最佳答案

我相信其他答案现在已经过时了。现在，使用Google Cloud Search API可以实现:
https://cloud.google.com/speech/docs/async-time-offsets

关于audio - Google语音识别API:每个单词的时间戳？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34086379/

上一篇：angularjs - 如何创建响应式(可变列数)Angular-Material 卡片网格

下一篇：julia - Julia 中是否存在类似 Python 的 virtualenv？

ios - 新版本的Xcode破坏了音频播放代码

ios - 在WatchOS上使用AVAudioEngine录音时禁止播放

macos - 在 MacOS 上以编程方式切换听写

node.js - 如何在Google Speech-to-Text API中处理多个streamingRecognize请求？

Android studio 语音转文本离线模式不起作用

iOS Speech-to-text AVAudioInputNode(?) 随机崩溃

audio - VST 插件中的 Ableton Link 可能吗？

audio - 有没有一款软件可以自动打乱/模糊音频文件的一部分？

java - 语音转文本/语音识别