我需要一个专门的解决方案来检测智能手机上使用的 1 到 1000 之间的数字。
最好的解决方案是让这个 SDK 离线工作。
任何的想法 ?
我在 Google Speech 或 Amazon Transcribe 中找不到任何允许“仅数字”的配置
最佳答案
严格要求人们提供数字是不太正确的,即使您向他们询问数字,他们通常也会说很多诸如“我不知道”或“稍等”之类的话。您将严重损害体验。
您必须智能地分析识别结果,即使识别出非数字也必须采取相应措施。
要专门提高数字的准确性,您可以使用 word hint feature谷歌语音 API。只需添加数字和其他必需的单词作为提示,Google 就会更准确地识别它们。亚马逊也有这个功能,他们称之为“custom vocabulary”。
如果您想使用离线 API,您当然可以尝试 Kaldi .您可以 adapt Kaldi vocabulary用数字来提高准确性,它会比谷歌 API 好得多。
关于speech-recognition - 仅对数字(1 到 10000)进行语音识别的 API 或 SDK?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55525503/