我目前正在开发一个语音识别项目,我正在尝试选择最有意义的特征。 大多数相关论文建议使用过零率、F0 和 MFCC 功能,因此我正在使用这些功能。 我的问题是,持续时间为 00:03 的训练样本有 268 个特征。考虑到我正在做一个多类分类项目,每类训练有 50 多个样本,包括所有 MFCC 特征,该项目可能会受到维数诅咒或“降低其他特征的重要性”的影响。 所以我的问题是,我是否应该包含所有 MFCC 功能,如果不包含,您可以建议替代方案吗?
最佳答案
你不应该使用f0和过零,它们太不稳定了。您可以简单地增加训练数据并使用 mfcc,它们具有良好的表示能力。但请记住对它们进行均值标准化。
关于machine-learning - 语音识别需要MFCC功能吗,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38833661/