python - Kaldi 是否返回任何识别置信度参数,类似于 Google Speech-To-Text API?

标签 python google-cloud-platform speech-recognition speech-to-text kaldi

我正在处理语音识别任务。到目前为止,我一直在使用 Google Cloud Speech Recognition API(在 Python 中)并取得了不错的效果。 API 返回 confidence value以及转录文本的每一 block 。如文档中所述,置信度是一个介于 0 和 1 之间的数字,但我没有找到任何关于 Google 的 API 如何推导出这个数字的更深入的解释,所以我假设它以某种方式来自进行识别的神经网络。

下一步我想做的是制作我自己的(离线)自动语音识别程序,我发现 pyKaldi应该可以胜任这项任务。我还没有开始编程,但我想事先知道(出于研究目的)——Kaldi 能否像 Google Speech-to-Text API 一样返回一些类似的置信度值?这个“信心”到底是什么,它是如何计算出来的?

最佳答案

是的,pyKaldi 支持使用最小贝叶斯风险 (MBR) 计算的置信度值(单词置信度分数)。您将在文档中找到所有必要的信息。 这是模块描述的链接:

https://pykaldi.github.io/api/kaldi.lat.html?highlight=mbr#module-kaldi.lat.sausages

顾名思义,它是一个置信度值,但它并没有表达从音频 block 序列派生(或在概率设置中给定)的单词的结果文本输出的“可能性”是正确的。在我看来,表现力或意义有点模糊,取决于模型的质量和训练数据(噪声、混响等)。它在比较备选方案时很有意义,告诉您具有更高值(value)的那个更有可能是正确的。这反过来又提出了一个问题,即哪个距离称为显着差异。单个置信度值不会告诉您任何信息,您也不能仅根据置信度值来比较两个不同的识别器模型。微软称其为“相反,置信度分数提供了一种机制,用于比较给定输入的多个识别备选方案的相对准确性。这有助于返回最准确的识别结果。”

关于python - Kaldi 是否返回任何识别置信度参数,类似于 Google Speech-To-Text API?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58397321/

相关文章:

python - 给定不同大小的音频文件进行音素识别?

python - 如何将日期时间格式转换为 YYYY-MM-DD HH :MM:SS from an confused datetime format using python?

kubernetes - 升级到GKE中的更大节点池

安卓语音识别情绪检测器

c# - 如何使用 System.Speech 和 SAPI 5.3 向已加载的语法添加单词

python - Python中*in*运算符的复杂性

Python Pandas : How to Insert one Missing Row?

python - Python 中的 Raspberry Pi 异步/连续语音识别

python - 为 Google 云数据流部署和管理 Python SDK Apache Beam 管道执行的便捷方法是什么

google-cloud-platform - 通过 Cloud Run 下载大文件时出现 500 Internal Server Error