我正在尝试用 common voice 训练一个 cnn数据集。我是语音识别的新手,无法找到有关如何将数据集与 keras 一起使用的任何链接。我跟着这个article构建一个简单的单词分类网络。但我想用普通语音数据集扩大规模。任何帮助表示赞赏。
谢谢
最佳答案
您可以做的是查看 MFCCs .简而言之,这些是通过使用信号处理技术转录人类感知声音的方式从音频波形中提取的特征。在 python 中,你可以使用 python-speech-features计算 MFCC。
准备好数据后,就可以构建 CNN;例如类似 this one 的东西:
您也可以使用 RNN(例如 LSTM 或 GRU),但这有点高级。
编辑:如果需要,可以从一个非常好的数据集开始:
关于python - 如何在普通语音数据集上训练 CNN,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57302218/