audio - 在 Keras 中使用 Conv1D 处理长音频信号

标签 audio neural-network keras convolution keras-layer

我有一个长音频信号 x,它是 100000 个样本的一维列表。

为简单起见,假设我要做的就是将其与长度为 15 的滤波器进行卷积,并最终输出 100000 个样本的目标滤波信号 y

所以基本上,我正在尝试使用 1D CNN 进行 y = conv(x, h),并且要训练过滤器 h

在 Keras 中执行此操作的最佳方法是什么?我发现的所有示例似乎都是“每个样本都是长度为 400 个单词的序列,并且卷积沿着该 400 个单词的序列运行”的形式。由此看来,我唯一的选择似乎是将音频信号分成大小为 sequence_length 的 block ,但我真的宁愿避免这种情况,因为我基本上只有 1 个长度为 100000 的输入序列。

理想情况下,代码应该是这样的

import matplotlib.pylab as P
from keras.models import Model
from keras.layers import Conv1D, Input

x_train = P.randn(100000)
y_train = 2*x_train
x_val = P.randn(10000)
y_val = 2*x_val

batch_size = 64

myinput = Input(shape=(None, 1)) # shape = (BATCH_SIZE, 1D signal)
output = Conv1D(
    1, # output dimension is 1
    15, # filter length is 15
    padding="same")(myinput)

model = Model(inputs=myinput, outputs=output)

model.compile(loss='mse',
              optimizer='rmsprop',
              metrics=['mse'])


model.fit(x_train, y_train,
          batch_size=batch_size, epochs=100, shuffle=False,
          validation_data=(x_val, y_val))

当然,这里最大的问题是正确地塑造事物。

最佳答案

你完全在正确的轨道上。

尽管您有一个声音样本(示例*),但 keras 仍会假设您有很多。解决方案就是在您的输入中添加一个维度。

此外,keras 会期望您的卷积数据具有“ channel ”。如果您只有一个 channel (例如,不是立体声),则为其设置一个值为 1 的维度。

因此,您的输入数据应为:

  • (1, 100000, 1) - 如果使用 data_format='channels_last'(默认)
  • (1, 1, 100000) - 如果使用 data_format='chanels_first'

这意味着:长度为 100000 的信号的 1 个样本和一个 channel 。

您模型中的所有其余部分似乎都非常适合这项任务。


如果您的内存无法同时支持全部数据,那么您需要将音频分成多个 block 。否则,你很高兴。 (请注意,在划分时,使用 padding='valid' 可能会得到更好的结果,因为“相同”会在剪切中添加大量边框效果)。

您可能有兴趣阅读 WaveNet及其相关文章。

他们使用具有膨胀率的堆叠卷积层。


* - 在 Keras 中,每个“示例”都称为“样本”,尽管在音频处理中,样本通常是时间步长。因此,完整的音频文件将是 Keras 中的“样本”。

关于audio - 在 Keras 中使用 Conv1D 处理长音频信号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47505434/

相关文章:

tensorflow - 多类分类问题中的不平衡类

python - 如何通过 Keras Wrapper(或一般)传递参数?

ipython - 如何在 Ipython Notebook 上使用我的 GPU?

python - 类型错误 : fit_generator() got an unexpected keyword argument 'nb_val_samples'

android - 在android中同时播放图像和音频

ios - 使用AudioQueue播放不稳定的音频

neural-network - 全连接 1 (fc1) 层的输入展平值来自哪里(MNIST 示例)

python - 为什么随机种子会影响我的反向传播算法?

Python audiolab 安装,无法在 Mac OSX 上安装(或找到)libsndfile

python - 预期 dense_3_input 具有形状 (None, 40) 但得到形状为 (40, 1) 的数组