speech - 使用 Caffe 基于 CNN 的一维信号分类

标签 speech caffe

我正在寻找一个使用 Caffe 基于 CNN 的一维信号分类(例如语音信号)的简单明了的示例。

来自Caffe网站上,可以遵循一些图像分类任务的示例和教程。相反,我正在寻找有关一维信号的示例和教程。

非常感谢您的回答。

最佳答案

从概念上讲,处理一维数据与处理二维数据之间没有任何有意义的区别。您需要一个数据库,其中不是 2D 图像,而是 1D 形状“图像”( channel :1,高度:1,宽度:d),并确保所有内核都使用 kernel_w 和 kernel_h 而不是 kernel_size(将内核设置为正方形)。

如果您正在寻找可以使用的示例架构,您可以阅读这篇文章来根据原始波形语音数据训练 CNN:Speech Acoustic Modeling from Raw Multichannel Waveforms .

还有an open issue on Caffe's Github page请求语音领域的示例,以及您可以查看的潜在实现的更多链接。

关于speech - 使用 Caffe 基于 CNN 的一维信号分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29213108/

相关文章:

tensorflow - 如何在非 NVIDIA 设置上加速深度学习?

c# - 使用特定命令的 C# 语音识别

c# - 更改SpeechSynthesizer的音频输出设备

reverse-engineering - CRC校验程序

c++ - 计算 Caffe 中的前 5 错误率?

machine-learning - 当我训练我的caffe模型时,损失总是保持很大的值,并且准确性没有提高。

deep-learning - Caffe中Siamese网络的权重更新

android - 语音识别处理器

css - 如何创建语音识别后自动搜索的搜索引擎

machine-learning - 他们如何计算 Caffe 中这个卷积网络示例的输出量?