machine-learning - 如何将语音文件输入RNN/LSTM进行语音识别?

标签 machine-learning deep-learning lstm recurrent-neural-network

我正在研究 RNN/LSTM。我用 RNN 完成了一个简单的项目,其中我将文本输入到 RNN 中。但我不知道如何将语音输入 RNN 以及如何为循环网络预处理语音。我读过来自媒体和其他网站的许多文章。但我无法在网络中使用语音。您可以分享任何包含语音和 RNN/LSTM 的项目或任何可以帮助我的项目。

最佳答案

您需要将原始音频信号转换为频谱图或其他更易于使用 RNN/LSTMS 处理的方便格式。 This中等博客应该会有帮助。您可以查看this github repo以便实现。

关于machine-learning - 如何将语音文件输入RNN/LSTM进行语音识别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54471402/

相关文章:

machine-learning - 使用哪个指标来评估具有不平衡数据的分类器?

machine-learning - 卷积深度置信网络 (CDBN) 与卷积神经网络 (CNN)

machine-learning - 与 CNTK 匹配的 PyTorch(CIFAR 上的 VGG)

python - 如何为 CNN 训练准备 channel 图像?

python - 如何使用现有的和较新的类微调 keras 模型?

machine-learning - 截断 LSTM 网络中的旧数据点?

keras - 如何将 Bert 嵌入提供给 LSTM

python - 嵌入数值类别

r - 使用插入符包训练多个模型时出错

r - 在 R 的 GAM 模型中处理具有特殊(非物理)值的数值变量