performance - 语音识别，例如 Siri

标签 performance speech-recognition speech-to-text siri

Siri 等软件接受语音命令并适本地回答这些问题 (98%)。我想知道当我们编写一个软件来获取输入的语音信号流并回答这些问题时，

我们是否需要将输入转换为人类可读的语言？比如英语？

在自然界中，我们有许多不同的语言，但当我们说话时，基本上会发出不同的声音。而已。但是，我们创建了所谓的字母表来表示这些噪声变化。

所以，我的问题又是，当我们编写语音识别算法时，我们是将这些噪声变化信号与我们的数据库进行匹配，还是首先将这些噪声变化转换成英语，然后从数据库中检查要回答的内容？

最佳答案

您所指的“噪声变化信号”称为 phonemes .语音识别系统如何将这些音素翻译成单词取决于系统的类型。 Siri 不是一个基于语法的系统，您可以根据一组规则告诉语音识别系统您期望的短语类型。由于 Siri 在开放语境中翻译语音，因此它可能使用了某种类型的统计模型。当今流行的语音识别统计模型是隐马尔可夫模型。虽然涉及到各种各样的数据库，但这并不是将音素组简单地搜索成单词。对过程和翻译问题有很好的高级描述 here .

关于performance - 语音识别，例如 Siri，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11505345/

上一篇：visual-studio-2010 - 从 IDE 禁用 C++ PDB 生成

下一篇：svn - Tortoise SVN Commit 默认取消选中

python 脚本不等待文件中的输入

audio - Watson语音转文本服务对于哪种类型的音频文件都能更快地工作？

speech-to-text - 所有语音转文本算法都是实时运行的吗？

ios - AVAudioEngine 的语音识别在录制后阻止声音

android - SpeechRecognizer stopListening() 不工作

java - 如何减少 VisualVM 对堆使用的影响？

Python - 如何有效地迭代字典的子集？

c# - ConcurrentDictionary.Where 对于基于 int 数组(键字段)的过滤非常慢

python - speech_recognition 模块卡在 "say something"- python