machine-learning - 使用 MFCC 的简单单词检测器

标签 machine-learning speech-recognition mfcc

我正在使用梅尔频率倒谱系数实现语音识别软件。特别是系统必须识别单个指定的单词。由于音频文件,我得到了一个具有 12 行(MFCC)和与语音帧数量一样多的列的矩阵中的 MFCC。我计算行的平均值,因此得到一个仅包含 12 行的向量(第 i 行是所有帧的所有第 i-MFCC 的平均值)。我的问题是如何训练分类器来检测单词?我有一个仅包含正样本的训练集,即我从多个音频文件(同一单词的多个注册)中获得的 MFCC。

最佳答案

I make the average of the rows, so I get a vector with only the 12 rows (the ith-row is the average of all ith-MFCCs of all frames).

这是一个非常糟糕的主意,因为你会丢失有关该单词的所有信息,你需要分析整个 mfcc 序列,而不是其中的一部分

My question is how to train a classifier to detect the word?

简单的形式是 GMM 分类器,您可以在此处查看:

http://www.mathworks.com/company/newsletters/articles/developing-an-isolated-word-recognition-system-in-matlab.html

在更复杂的形式中,您需要学习更复杂的模型,例如 HMM。你可以从像这样的教科书中了解更多关于 HMM 的知识

http://www.amazon.com/Fundamentals-Speech-Recognition-Lawrence-Rabiner/dp/0130151572

关于machine-learning - 使用 MFCC 的简单单词检测器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28562023/

相关文章:

python - 如何分割测试和训练数据,以保证每个类别中至少有一个

python - 通过与训练数据的一致映射来分解实时数据?

opencv - 最佳背景扣除技术

iphone - Objective-C 中的图像/语音识别

java - 如何使用 Sphinx 从 wave 文件中获取 MEL 系数

java - 用于计算 mfcc vector 的库

Python 或 SQL 逻辑回归

java - Java Micro Edition 最好的语音识别库是什么?

javascript - 使用带有语音输入的特定词来更改背景图像

python - 如何将数组列表转换为单个多维 numpy 数组?