python - 如何在普通语音数据集上训练 CNN

标签 python keras conv-neural-network speech-recognition librosa

我正在尝试用 common voice 训练一个 cnn数据集。我是语音识别的新手,无法找到有关如何将数据集与 keras 一起使用的任何链接。我跟着这个article构建一个简单的单词分类网络。但我想用普通语音数据集扩大规模。任何帮助表示赞赏。

谢谢

最佳答案

您可以做的是查看 MFCCs .简而言之,这些是通过使用信号处理技术转录人类感知声音的方式从音频波形中提取的特征。在 python 中,你可以使用 python-speech-features计算 MFCC。

准备好数据后,就可以构建 CNN;例如类似 this one 的东西:

enter image description here

您也可以使用 RNN(例如 LSTM 或 GRU),但这有点高级。

编辑:如果需要,可以从一个非常好的数据集开始:

Speech Commands Dataset

关于python - 如何在普通语音数据集上训练 CNN,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57302218/

相关文章:

python - 如何在Python中的数据框中将特定位置的行插入?

Tensorflow:损失减少,但精度稳定

machine-learning - 咖啡 | solver.prototxt值设置策略

python - 定制和理解 GnuRadio QT GUI Vector Sink

python - 在字符串列表中搜索部分字符串

python - 如何计算一个值在递归函数中出现的次数?

tensorflow - 如何保存和恢复 Keras LSTM 模型?

image - Keras Graph 断开连接无法获取张量 KerasTensor 的值

machine-learning - keras.models.Model.fit 中的 "epoch"是什么?

python - CNN 对所有输入数据预测相同的类别