我正在构建一个包含语音识别功能的应用 - 我打算使用 Android 语音识别服务或语音输入功能。
据我所知,演讲大部分是在云端处理的。我的问题是是否有人知道音频以什么格式发送到云端?例如,是 WAV 或 MP3 或 PCM 之类的东西,还是可能完全是其他东西?
我承认这主要是出于纯粹的好奇心,想了解更多幕后发生的事情。 (但部分也与对前后处理对识别的影响的兴趣有关。)
最佳答案
嗯,我也一直在寻找这些信息,而我能找到的最接近的信息是 Google 的 speech recognition API for chrome其中使用了 FLAC音频编解码器。我不确定 android 是否也使用它,但这是我得到的最接近的东西。
关于android - Android 语音识别将什么格式的语音发送到云端?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12931545/