artificial-intelligence - 使用多个语音转文本 API 来提高准确性

标签 artificial-intelligence speech-recognition speech-to-text ibm-watson google-speech-api

有没有人尝试过使用两个或多个语音转文本 API 来转录音频?您可以使用时间戳匹配单词,然后选择置信度最高的单词。如果有人这样做过,是否显着提高了转录的准确性?值得吗?

最佳答案

由于多种不同的原因,这种方法可能会出现问题。并非所有供应商都逐字返回置信度分数,即使他们这样做了,来自一个供应商的 60% 的置信度分数与来自不同供应商的 API 的 60% 的置信度分数并不意味着相同的事情。置信度分数仅在发布它们的 API 的上下文中有效。

目前大多数语音转文本供应商都拥有相当不错的模型。有些(如 IBM Watson)实际上允许您通过添加词汇来自定义模型。如果您查看针对 SWITCHBOARD 语料库的行业基准,您会注意到供应商不断改进并相互超越。 2016 年 9 月 13 日,Microsoft 宣布其错误率最低 (https://blogs.microsoft.com/next/2016/09/13/microsoft-researchers-achieve-speech-recognition-milestone/)。 2017 年 1 月 11 日,谷歌声称已经击败了这一点,然后 IBM 于 2017 年 3 月 7 日 (https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/) 宣布了优势。差异都是百分之几或百分之几的改进。我预计这种跨越式改进将在短期内持续下去。

总结一下 - 通过使用两种不同的 API,您可以有效地使语音到文本实现的成本翻倍 - 基于您将实现的准确性的最小改进,这很难证明是合理的。

关于artificial-intelligence - 使用多个语音转文本 API 来提高准确性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44959573/

相关文章:

android - 将语音转换为文本

actionscript-3 - 在 Adob​​e AIR 应用程序中比较两个声音

functional-programming - 下棋

language-agnostic - 有哪些游戏具有相当简单的启发式来评估位置?

php - PHP 中的语音识别?

javascript - Uncaught TypeError : recognition. addEventListener is not a function?JS语音识别错误

java - 如何知道我的 Java 程序正在做什么?

Android 语音转文本查询

java - 如何在 Java 中实现遗传算法的高斯变异算子

algorithm - 确定 k 最近邻的最佳 k