speech-recognition - 深度学习的音频功能

标签 speech-recognition deep-learning

我找到了一些使用深度学习进行音频分类的论文和幻灯片。

一些研究使用频谱图作为深度学习模型的输入。

我想知道确切和实际的实现。

我找到了 this slide .

第 67 页

enter image description here

据我了解,第一层节点数为24,输入为24个不同时间段的频谱图。

例如,如果一个音频事件是 2.4 秒,第一个节点是 0~0.1 秒的频谱图,第二个节点是 0.1~0.2 秒的频谱图……

我误会了吗?

我的问题:如果有 3.0 秒的音频事件,如何分类?

最佳答案

我设法使用 对时间序列数据进行分类卷积神经网络 .卷积神经网络与人工神经网络基本相同。唯一的区别是,ANN 的输入必须是 卷积 首先提取特定的特征。以直观的方式,卷积运算基本上突出了某些数据的特定特征。最好通过手电筒照射图像的不同部分来描绘它。通过这样做,我们可以突出图像的特定特征。

这就是CNN的主要思想。它本质上是为了提取空间特征而设计的。卷积操作通常是堆叠的,这意味着你有 (row,column,dimensions) 所以卷积的输出是 3 维。这个过程的缺点是计算时间长。为了减少这种情况,我们需要 池化 下采样这基本上减少了特征检测器的大小而不会丢失基本特征/信息。例如,在池化之前,您有 12 个 6,6 矩阵作为特征检测器。合并后,您有 12 个大小为 3,3 的卷积数据。你可以在之前反复做这两步压扁它基本上将所有这些压缩到 (n,1) 维数组中。之后,您可以执行正常的 ANN 步骤。

简而言之,可以使用 CNN 完成对时间序列数据进行分类的步骤。以下是步骤:

1.卷积
2.Pooling
3.展平
4.全连接(正常ANN步骤)

您可以随心所欲地添加卷积和池化层,但要注意训练时间。有这个video由我最喜欢的 YouTube 用户 Siraj Raval 提供。顺便说一句,我建议你使用Keras用于深度学习。传递最容易使用的深度学习库。希望能帮助到你。

关于speech-recognition - 深度学习的音频功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35169706/

相关文章:

python - 如何获得对 Pocket Sphinx 转录的信心

android - 同时进行语音转文本和文本转语音

python - 在 Python 中使用 wav 文件录制音频和语音到文本的转换

python - 在 tensorflow-r1.2 中正确使用 `tf.scatter_nd`

python - Pytorch : How . grad() 函数返回结果?

google-chrome - Google 的 Webspeech 服务器是否限制了我的请求?有解决办法吗?

python-3.x - 我无法在 Python 中使用语音识别来查看我的文本输出

machine-learning - 使用基于三元组的训练时 Tensorflow CNN 网络中的 Dropout

instance - “instance detection” 和 "semantic segmentation"有什么区别?

python - 如何从一个热编码 csv 文件创建文件夹?