google-api - 可以将 Google Speech API 配置为仅返回数字/字母吗？

标签 google-api google-cloud-platform voice-recognition google-speech-api google-cloud-speech

Google Speech API 可以配置为仅返回数字和字母，而不是完整的单词吗？

用例是翻译加拿大邮政编码。
前任。 M 1 B 0 R 3. 谷歌可能会返回“Em 1 Be 0 Are 3”

我们已经尝试过:

使用 speechContexts并输入字母 A - Z，作为单独的短语。这提高了我们的准确性。我们在传递单个数字(例如 1、2、3)方面没有取得太大成功。

使用 encoding 指定 WAV 文件的编解码器和采样率和 sampleRateHertz配置选项。我们认为这样做没有任何改进，因为我们相信谷歌已经在自动识别采样率和编码方面做得很好。

我们的音频文件是 8000hz 并用“M-ULAW”编码。我们无法灵活更改采样率或编码。

对于这个用例，有没有办法从 Google 获得更准确的响应？甚至更好的想法 speechContexts欢迎使用短语。

谢谢

最佳答案

我们遇到了相同的结果，我们希望有一个基于语法的“上下文”建议或一个参数来强制只返回数字变量。

api 版本的变化并没有修复识别数字的方式，甚至没有使用模型:phone_call。

识别某种数字实际上更好的是切换到 en_US 语言环境，这反过来又迫使识别引擎将数字列表识别为电话。所以它以类似电话的语法返回 +XXX-XXX-XXX-XXXX，这使得检测非常好。

所以我不明白为什么谷歌在幕后有语法匹配并且没有通过他们的 api 提供它。

关于google-api - 可以将 Google Speech API 配置为仅返回数字/字母吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45310657/

上一篇：r - R中按列名排列矩阵组列表的矩阵

下一篇：asp.net-core-mvc - 具有 Entity Framework 的 AspNet Core MVC + 类库(.Net 标准)

speech-recognition - 扩展 Sphinx 以支持本地语言

c# - JSON.NET:获取子值？

windows - Docker 使用 json 凭据登录到 gcp

python-3.x - 如何使用python将文件夹从本地上传到GCP存储桶

python - Google Cloud 上的 Bokeh Flask 部署

android - 在 Android 应用中集成 Google 语音识别

c# - 如何从 Outlook 插件获取 Gmail threadid(使用 Google Outlook Sync 时)？

youtube - 使用pageToken时，YouTube API v3返回400错误

javascript - 无法使用 javascript 连接到 Youtube Data API V3