signal-processing - 如何从音频流中检测语音

标签 signal-processing fft audio-processing

我需要确定何时有人在音频流中讲话。我应用了汉明窗并计算了 FFT。我如何检测这里的人声?

最佳答案

如果您想尝试自己的语音事件检测算法,可以使用 FFT 作为初始阶段。接下来,您可能想要尝试减去任何特征化的静态频谱噪声背景。然后,您可以尝试使用修改后的 FFT 结果来计算倒谱(或一些加权倒谱系数)以进行特征提取。然后,您可以对您决定提取的任何特征向量进行一些统计模式匹配,并将结果输入决策算法。

上述每个步骤都可能是一个研究主题,一个好的实现可能需要研究数十篇已发表的研究论文,这些论文也许可以在您的大学图书馆中找到。

关于signal-processing - 如何从音频流中检测语音,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8370173/

相关文章:

python - 如何以图形方式表示 FFT 输出?

web-audio-api - 如何以特定位深度渲染?

python - 从互相关中查找信号或相位延迟

c++ - 如何用快速傅里叶变换计算频率

matlab - 扩展卡尔曼滤波器收敛到不正确的值,这只是野兽的本性吗? (图片)

audio - 为什么音频文件加密在频域中进行?

python - 结合卷积神经网络

python - 相同长度音频剪辑的不同 FFT 信号长度

Android指南针方向不可靠(低通滤波器)

c - 使用嵌入式C测试环境缺少头文件