speech-recognition - 仅对数字(1 到 10000)进行语音识别的 API 或 SDK?

标签 speech-recognition speech-to-text speech

我需要一个专门的解决方案来检测智能手机上使用的 1 到 1000 之间的数字。
最好的解决方案是让这个 SDK 离线工作。
任何的想法 ?
我在 Google Speech 或 Amazon Transcribe 中找不到任何允许“仅数字”的配置

最佳答案

严格要求人们提供数字是不太正确的,即使您向他们询问数字,他们通常也会说很多诸如“我不知道”或“稍等”之类的话。您将严重损害体验。

您必须智能地分析识别结果,即使识别出非数字也必须采取相应措施。

要专门提高数字的准确性,您可以使用 word hint feature谷歌语音 API。只需添加数字和其他必需的单词作为提示,Google 就会更准确地识别它们。亚马逊也有这个功能,他们称之为“custom vocabulary”。

如果您想使用离线 API,您当然可以尝试 Kaldi .您可以 adapt Kaldi vocabulary用数字来提高准确性,它会比谷歌 API 好得多。

关于speech-recognition - 仅对数字(1 到 10000)进行语音识别的 API 或 SDK?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55525503/

相关文章:

android - Pocketsphinx VS 谷歌语音识别 API

android - 在 Android 中使用录音的 SpeechRecognizer

Python NLTK 解释一个固定的句子模式并将其标记化

ios - 几分钟后 SpeechRecognizer 失败

javascript - Google Chrome 中现已失效的 x-webkit-speech 是否有后备方案?

python - 将 MS Azure 上麦克风的连续语音识别存储到单独的变量

cocoa - SSpeechRecognizer 代表将被调用以处理任何说出的单词

ios - iOS 中 Speech to Text 的示例

python - Python 中的音调检测

android - Google Speech API示例,无法解析R