我开始探索 Google Cloud Speech API。
我读过
"Speech API supports any device that can send a REST request"
因此,我认为我可以从任何浏览器(笔记本电脑和移动设备)调用此类 API。具体来说,我对使用 API 将“语音”翻译成文本的场景感兴趣。我正在弄清楚类似以下内容:
- 用户录制他/她的声音并将其流式传输到 API
- API 将其转换为发送回浏览器的文本
- 浏览器使用收到的文本采取行动(例如保存 后端数据库上的文本)
我进行了一些搜索,收集了一些信息,但我有一些很大的疑问,我想在真正沿着这条路前进之前清除这些问题
- 直接从 浏览器,即使用 Javascript?质疑源于事实 文档显示 nodejs examples但不纯 javascript的
- 这个场景能否使用 Safari 实现(在桌面和
在移动)?怀疑来自于这样一个事实,即到目前为止我所做的所有搜索都指向我读到 Safari 不支持录音的页面(即
getUserMedia
HTML5 API)
我们将不胜感激关于这些点的任何指导。
最佳答案
从 iOS11 开始,Apple 添加了对 getUserMedia
API 的支持。
您可以了解更多here .
更新 流式语音识别是流式音频的潜在解决方案 (https://cloud.google.com/speech/docs/streaming-recognize)
关于javascript - 直接从浏览器(包括 Safari)调用 Google Cloud Speech API 是否可行且可取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43988076/