通过对http://www.google.com/speech-api/v2/recognize?...
进行请求,可以使用Google的语音识别API来获取音频文件(WAV,MP3等)的转录本
示例:我在WAV文件中说过“一二三五”。 Google API为我提供了这一点:
{
u'alternative':
[
{u'transcript': u'12345'},
{u'transcript': u'1 2 3 4 5'},
{u'transcript': u'one two three four five'}
],
u'final': True
}
问题:是否可以获取说出每个单词的时间(以秒为单位)?
以我的例子:
['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.
即在时间00:00:00.23和00:00:00.80之间说了“一个”一词,
在时间00:00:01.03和00:00:01.45(以秒为单位)之间说了“两个”一词。
PS:正在寻找一种支持除英语之外的其他语言的API,尤其是法语。
最佳答案
我相信其他答案现在已经过时了。现在,使用Google Cloud Search API可以实现:
https://cloud.google.com/speech/docs/async-time-offsets
关于audio - Google语音识别API:每个单词的时间戳?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34086379/