linux - 录制音频以进行语音识别

标签 linux tensorflow audio text-to-speech audio-recording

我刚刚开始考虑我的新项目,关于tts&stt(文本到语音和语音到文本),我走过了一些必须解决的棘手问题。
如何录制音频?
在这一点上,我并不关心语言,我只是感兴趣的是,我如何能够录制几段一起引用的音频。假设我说“Jarvis打开灯2”,那么这个应该被保存为“whatever.wav”,但是如果,我已经以2秒的时间间隔说出了每个单词。然后我的录音软件可以假设第一个单词“Jarvis打开”应该被分组并用TensorFlow处理,然后下一个音频块将用单词“Light Two”处理,这将毫无意义。有没有其他方法可以让我录制有意义的音频?可能有一个阈值,所以它只记录给定的噪声量?
我应该使用哪种语言?
整个系统应该在Linux上作为后台进程运行。TensorFlow也有很多受支持的语言。我最关心的是C++或Java。这里的主要问题是我如何在连续模式下运行软件。所以当我的服务器打开时,录音软件也应该启动,继续监听并生成我的“whatever.wav”文件。
线程和选项是否必要?
录制软件作为后台进程在Linux上运行。它应该只是听,并将我的口语组合成一个单独的“whatever.wav”文件。在更新了这个文件之后,TensorFlow会扫描文件并输出我训练过的任何内容。我不太熟悉无限状态机,所以基本上这是我的问题?
我对这个话题还不太熟悉,所以对我要有耐心。
Lg迈克尔

最佳答案

如何录制音频?有没有其他方法可以让我录制有意义的音频?可能有一个阈值,所以它只记录给定的噪声量?
你用0.1秒的时间记录音频,然后逐一处理累积的结果。一旦检测到关键字,就执行操作。不需要将结果存储到wav文件中,您可以将所有内容保存在内存中。您可以检查现有软件的例子:
https://github.com/castorini/honk
我应该使用哪种语言?整个系统应该在Linux上作为后台进程运行。TensorFlow也有很多受支持的语言。我最关心的是C++或Java。
大部分TF开发都是用Python完成的
线程和选项是否必要?录制软件作为后台进程在Linux上运行。
不需要穿线。Linux内核在您的软件处理音频时在内部缓冲音频。

关于linux - 录制音频以进行语音识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48014156/

相关文章:

linux - 在 Kubuntu 设备上执行命令

linux - 黑客终端消息

python - 如何将以下tensorflow代码转入pytorch

.net - 需要库来比较语音轨道(发音)

c# - geckofx webbrowser不在Windows窗体c#中播放音频

Python 可移植、Linux 和 Windows

linux - 仅打开包含特定字符串的文件,然后在 Linux 命令行上替换

ubuntu - 在//tensorflow/core/grappler/costs :utils: when trying to build Tensorflow with GPU support 中的可配置属性 "deps"上的非法模糊匹配

python - 尝试在 Windows 10 上安装 Tensorflow 'No Module named ' _pywrap_tensorflow_internal'

node.js - 如何确定 Node 或 Express 中音频文件的持续时间?