我偶然在 Google Speech API 看到了这篇文章这提出了一种通过 Perl 从音频文件中提取文本的机制。现在我已经录制了一个音频文件,您可以在 http://vocaroo.com/i/s0lPN5d3YQJj 找到它。 .这是一段简单的音频,阅读 我爱你 .当我在 Chrome 中访问 Google 语音 API 并说出这些话时,我得到了正确的结果。当我用我指出的音频文件尝试上述链接中的代码时,它返回奇怪的结果,如 洛根 .我怎样才能使它更准确?这只是一个示例音频,我通常做的是使用类似 ffmpeg -i input.avi -vn -ar 44100 -ac 2 -ab 192 -f mp3 output.mp3
的东西通过 FFMpeg 从视频文件中提取音频,后跟 ffmpeg -i input.mp3 output.flac
.
最佳答案
您是否尝试过播放您正在创建的音频文件?
您正在设置 192 位/秒的音频比特率,这非常低。
对于 192Kbps,您需要 -ab 196608
.
关于perl - 在文件中发送音频时,Google Speech API 不给出正确的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11809056/