我想为机器学习模型准备一个音频数据集。
每个 .wav 文件应表示为 MFCC 图像。
虽然所有图像都具有相同的 MFCC 数量 (= 20),但 .wav 的长度 文件长度在 3-5 秒之间。
我应该将所有 .wav 文件调整为具有相同的长度吗? 我应该在绘图之前标准化 MFCC 值(0 到 1 之间)吗?
在将此类数据传递给机器学习模型之前,是否需要执行任何重要步骤?
进一步阅读链接也将不胜感激。
最佳答案
大多数分类器都需要固定大小的输入,是的。您可以通过在计算 MFCC 后剪切或填充 MFCC 来完成此操作。无需操作 WAV/波形本身。
另一种方法是将音频文件分成多个分析窗口,例如每个分析窗口 1 秒。 3 秒的文件可以进行 3 次预测(如果使用重叠,则可以进行更多预测),而 5 秒的文件则需要 5 次预测(或更多)。然后,为了获得剪辑范围内的预测,需要合并剪辑中所有窗口的预测。以这种方式进行训练的简单方法需要假设为剪辑给出的标签对于每个单独的分析窗口都有效。
关于machine-learning - 准备 MFCC 音频功能 - 所有 WAV 文件是否应该具有相同的长度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60474074/