我正在寻找一个使用 Caffe 基于 CNN 的一维信号分类(例如语音信号)的简单明了的示例。
来自Caffe网站上,可以遵循一些图像分类任务的示例和教程。相反,我正在寻找有关一维信号的示例和教程。
非常感谢您的回答。
最佳答案
从概念上讲,处理一维数据与处理二维数据之间没有任何有意义的区别。您需要一个数据库,其中不是 2D 图像,而是 1D 形状“图像”( channel :1,高度:1,宽度:d),并确保所有内核都使用 kernel_w 和 kernel_h 而不是 kernel_size(将内核设置为正方形)。
如果您正在寻找可以使用的示例架构,您可以阅读这篇文章来根据原始波形语音数据训练 CNN:Speech Acoustic Modeling from Raw Multichannel Waveforms .
还有an open issue on Caffe's Github page请求语音领域的示例,以及您可以查看的潜在实现的更多链接。
关于speech - 使用 Caffe 基于 CNN 的一维信号分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29213108/