speech-recognition - "Voice trigger"检测

标签 speech-recognition signal-processing voice voice-recording

我有一个语音应用程序,如果能够使用“触发词”开始录制音频,它将得到很大改进。我不需要完整的语音文本引擎,只需要可靠/有效检测触发词的能力。

我想知道是否有任何专门的语音引擎支持这个特定的用例,或者任何库/方法来开发这样一个单一用途的检测引擎。理想情况下,我希望它在嘈杂的环境中工作,但它可以针对单个用户的声音进行训练。

研究论文/主题的指针也将不胜感激,所以我知道要问什么。

最佳答案

我在 Red5 项目中的一位同事使用触发词创建了一个类似的演示,以导致针对图像存储库运行搜索。说“猫”会导致猫的图像在大约一秒钟内出现。客户端应用程序是用 Flash 编写的,后端使用免费的 Sphinx 库在 Red5 上运行。您当然可以毫不费力地使用 Sphinx 做您想做的事。

狮身人面像项目:http://cmusphinx.sourceforge.net/sphinx4/

关于speech-recognition - "Voice trigger"检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/901928/

相关文章:

audio - 如何在 OS X 上获得实时转录(没有音频文件)?

java - 通过语音命令启动应用程序 (android)

matlab - 在Matlab中反转soundsc

numpy - fft 在短时间历史中找到低频

sms - Twilio 可编程自定义语音通话

java - smack jitsi-jingle 示例

在函数 ‘ptmr_start’ 和 ‘ptmr_stop’ 中安装 Sphinxbase 时出现编译错误

c# - 如何在 Windows XP 上使用 C# 进行语音识别? + 我是否需要培训每台运行该应用程序的电脑?

c# - 良好的语音识别API

c# - 计算两个时间跨度DSP之间的差