java - 语音识别API

标签 java speech-recognition voice-recognition voice musicg

<分区>

我有一个java应用程序。我想在上面实现语音识别功能。

就像这样:

假设,我有一些记录被用户称为“嘿”、“一”、“二”、“茶”。当他/她说“嘿”时,语音识别 api 应该识别记录的第一个输入. "hey", "one", "two, "tea"可以是英文以外的词。

我已经在寻找一些支持语音识别或具有音频指纹算法的 API。但我不想使用它们。

让我解释一下为什么我不使用这些 api。 首先,语音识别 api 尝试理解单词并将其转换为文本。但是,这仅限于 api 支持的语言。即使语音识别 api 支持英语。由于用户的发音不好,可能会给出不好的结果。所以我不想在我的应用程序上使用语音识别 api。因为该功能不应该基于语言。

此外,当我寻找语音识别api时,我找到了“音频指纹”api。我使用了开源的“musicg”api。然后,我开发了一个测试应用程序。该应用程序记录了 4 个不同的音频文件,其中包含无字语音。之后,我录制了一个与其中一个相似的声音,测试 api 使用 musicg api 将最后一个与以前的音频文件进行了比较。但是结果也很糟糕。

正如我之前提到的,我需要获得语音识别功能,就像旧手机一样。

最佳答案

检查卡尔迪http://kaldi-asr.org/ 或者这个 tensorflow 教程:https://www.tensorflow.org/tutorials/audio_recognition

在这两种情况下,您都可以训练模型,它不是基于语言的。您可以针对某些特定语音或口音或某些特定上下文训练模型。

此外,也许您会对这个项目感兴趣:https://github.com/cmusphinx/g2p-seq2seq 它不使用语言模型并将音频翻译成音素。

关于java - 语音识别API,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37917589/

相关文章:

java - 在 Java 中分配数组的一部分

java - hibernate-core 和 hibernate-annotation - 冲突

Javascript 实时语音流并在 django 后端处理它

machine-learning - 语音转文字识别

php - 在线语音到文本转换 php、javascript 或 flash

java - 我如何编写带有未知单词的JSGF语法文件?

android - 如何通过android代码在通话过程中改变人的声音,同时他正在调用另一个人

java - 无法更改 permgen 内存

Java 2D 游戏 - 检查玩家是否触摸另一个 Sprite

windows-8 - 是否有任何 Windows 8 语音转文本和文本转语音 API?