我需要确定何时有人在音频流中讲话。我应用了汉明窗并计算了 FFT。我如何检测这里的人声?
最佳答案
如果您想尝试自己的语音事件检测算法,可以使用 FFT 作为初始阶段。接下来,您可能想要尝试减去任何特征化的静态频谱噪声背景。然后,您可以尝试使用修改后的 FFT 结果来计算倒谱(或一些加权倒谱系数)以进行特征提取。然后,您可以对您决定提取的任何特征向量进行一些统计模式匹配,并将结果输入决策算法。
上述每个步骤都可能是一个研究主题,一个好的实现可能需要研究数十篇已发表的研究论文,这些论文也许可以在您的大学图书馆中找到。
关于signal-processing - 如何从音频流中检测语音,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8370173/