machine-learning - 准备 MFCC 音频功能 - 所有 WAV 文件是否应该具有相同的长度?

标签 machine-learning feature-extraction librosa mfcc

我想为机器学习模型准备一个音频数据集。

每个 .wav 文件应表示为 MFCC 图像。

虽然所有图像都具有相同的 MFCC 数量 (= 20),但 .wav 的长度 文件长度在 3-5 秒之间。

我应该将所有 .wav 文件调整为具有相同的长度吗? 我应该在绘图之前标准化 MFCC 值(0 到 1 之间)吗?

在将此类数据传递给机器学习模型之前,是否需要执行任何重要步骤?

进一步阅读链接也将不胜感激。

最佳答案

大多数分类器都需要固定大小的输入,是的。您可以通过在计算 MFCC 后剪切或填充 MFCC 来完成此操作。无需操作 WAV/波形本身。

另一种方法是将音频文件分成多个分析窗口,例如每个分析窗口 1 秒。 3 秒的文件可以进行 3 次预测(如果使用重叠,则可以进行更多预测),而 5 秒的文件则需要 5 次预测(或更多)。然后,为了获得剪辑范围内的预测,需要合并剪辑中所有窗口的预测。以这种方式进行训练的简单方法需要假设为剪辑给出的标签对于每个单独的分析窗口都有效。

关于machine-learning - 准备 MFCC 音频功能 - 所有 WAV 文件是否应该具有相同的长度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60474074/

相关文章:

r - 获取 Tensorflow 占位符的形状

machine-learning - 我们能否在使用 CNN 时明确指定从图像中提取哪些特征

python - sklearn 集成和树中连续变量的分箱

python - 如何告诉 shap 树解释器和 shap 值计算器哪些变量是分类的?

audio - 为什么 librosa 中的情节不同?

python - 尽管下载了ffmpeg并设置了路径变量python,但没有后端错误

python - matplotlib 中的 "Segmentation Fault"运行示例 Librosa 脚本

machine-learning - 如何将依赖路径编码为分类特征?

opencv - 对于尺度不变的特征提取,是否有 SURF 和 SIFT 的快速替代方法?

python - 如何通过直方图从蒙版图像中提取颜色特征?