linux - 录制音频以进行语音识别

我刚刚开始考虑我的新项目，关于tts&stt（文本到语音和语音到文本），我走过了一些必须解决的棘手问题。
如何录制音频？
在这一点上，我并不关心语言，我只是感兴趣的是，我如何能够录制几段一起引用的音频。假设我说“Jarvis打开灯2”，那么这个应该被保存为“whatever.wav”，但是如果，我已经以2秒的时间间隔说出了每个单词。然后我的录音软件可以假设第一个单词“Jarvis打开”应该被分组并用TensorFlow处理，然后下一个音频块将用单词“Light Two”处理，这将毫无意义。有没有其他方法可以让我录制有意义的音频？可能有一个阈值，所以它只记录给定的噪声量？
我应该使用哪种语言？
整个系统应该在Linux上作为后台进程运行。TensorFlow也有很多受支持的语言。我最关心的是C++或Java。这里的主要问题是我如何在连续模式下运行软件。所以当我的服务器打开时，录音软件也应该启动，继续监听并生成我的“whatever.wav”文件。
线程和选项是否必要？
录制软件作为后台进程在Linux上运行。它应该只是听，并将我的口语组合成一个单独的“whatever.wav”文件。在更新了这个文件之后，TensorFlow会扫描文件并输出我训练过的任何内容。我不太熟悉无限状态机，所以基本上这是我的问题？
我对这个话题还不太熟悉，所以对我要有耐心。
Lg迈克尔

最佳答案

如何录制音频？有没有其他方法可以让我录制有意义的音频？可能有一个阈值，所以它只记录给定的噪声量？
你用0.1秒的时间记录音频，然后逐一处理累积的结果。一旦检测到关键字，就执行操作。不需要将结果存储到wav文件中，您可以将所有内容保存在内存中。您可以检查现有软件的例子：
https://github.com/castorini/honk
我应该使用哪种语言？整个系统应该在Linux上作为后台进程运行。TensorFlow也有很多受支持的语言。我最关心的是C++或Java。
大部分TF开发都是用Python完成的
线程和选项是否必要？录制软件作为后台进程在Linux上运行。
不需要穿线。Linux内核在您的软件处理音频时在内部缓冲音频。

关于linux - 录制音频以进行语音识别，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48014156/

linux - 录制音频以进行语音识别

上一篇：linux - 通过 ACME.SH 迁移 ssl 证书

下一篇：c++ - 从 bash 脚本发送一些参数(如 Ctrl-C、3、some_string)到程序