speech-recognition - "Voice trigger"检测

标签 speech-recognition signal-processing voice voice-recording

我有一个语音应用程序，如果能够使用“触发词”开始录制音频，它将得到很大改进。我不需要完整的语音文本引擎，只需要可靠/有效检测触发词的能力。

我想知道是否有任何专门的语音引擎支持这个特定的用例，或者任何库/方法来开发这样一个单一用途的检测引擎。理想情况下，我希望它在嘈杂的环境中工作，但它可以针对单个用户的声音进行训练。

研究论文/主题的指针也将不胜感激，所以我知道要问什么。

最佳答案

我在 Red5 项目中的一位同事使用触发词创建了一个类似的演示，以导致针对图像存储库运行搜索。说“猫”会导致猫的图像在大约一秒钟内出现。客户端应用程序是用 Flash 编写的，后端使用免费的 Sphinx 库在 Red5 上运行。您当然可以毫不费力地使用 Sphinx 做您想做的事。

狮身人面像项目:http://cmusphinx.sourceforge.net/sphinx4/

关于speech-recognition - "Voice trigger"检测，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/901928/

上一篇：programming-languages - 为长期项目选择平台

下一篇：.net - 在 .NET 中使用十进制类型的问题

相关文章：

audio - 如何在 OS X 上获得实时转录(没有音频文件)？

java - 通过语音命令启动应用程序 (android)

matlab - 在Matlab中反转soundsc

numpy - fft 在短时间历史中找到低频

sms - Twilio 可编程自定义语音通话

java - smack jitsi-jingle 示例

在函数 ‘ptmr_start’ 和 ‘ptmr_stop’ 中安装 Sphinxbase 时出现编译错误

c# - 如何在 Windows XP 上使用 C# 进行语音识别？ + 我是否需要培训每台运行该应用程序的电脑？

c# - 良好的语音识别API

c# - 计算两个时间跨度DSP之间的差