我正在研究 RNN/LSTM。我用 RNN 完成了一个简单的项目,其中我将文本输入到 RNN 中。但我不知道如何将语音输入 RNN 以及如何为循环网络预处理语音。我读过来自媒体和其他网站的许多文章。但我无法在网络中使用语音。您可以分享任何包含语音和 RNN/LSTM 的项目或任何可以帮助我的项目。
最佳答案
您需要将原始音频信号转换为频谱图或其他更易于使用 RNN/LSTMS 处理的方便格式。 This中等博客应该会有帮助。您可以查看this github repo以便实现。
关于machine-learning - 如何将语音文件输入RNN/LSTM进行语音识别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54471402/