signal-processing - 如何从音频流中检测语音

标签 signal-processing fft audio-processing

我需要确定何时有人在音频流中讲话。我应用了汉明窗并计算了 FFT。我如何检测这里的人声？

最佳答案

如果您想尝试自己的语音事件检测算法，可以使用 FFT 作为初始阶段。接下来，您可能想要尝试减去任何特征化的静态频谱噪声背景。然后，您可以尝试使用修改后的 FFT 结果来计算倒谱(或一些加权倒谱系数)以进行特征提取。然后，您可以对您决定提取的任何特征向量进行一些统计模式匹配，并将结果输入决策算法。

上述每个步骤都可能是一个研究主题，一个好的实现可能需要研究数十篇已发表的研究论文，这些论文也许可以在您的大学图书馆中找到。

关于signal-processing - 如何从音频流中检测语音，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8370173/

上一篇：java - 从数组分配插入 - Java

下一篇：text - 为什么文本编辑器会使粘贴代码的缩进变形？

相关文章：

python - 如何以图形方式表示 FFT 输出？

web-audio-api - 如何以特定位深度渲染？

python - 从互相关中查找信号或相位延迟

c++ - 如何用快速傅里叶变换计算频率

matlab - 扩展卡尔曼滤波器收敛到不正确的值，这只是野兽的本性吗？ (图片)

audio - 为什么音频文件加密在频域中进行？

python - 结合卷积神经网络

python - 相同长度音频剪辑的不同 FFT 信号长度

Android指南针方向不可靠(低通滤波器)

c - 使用嵌入式C测试环境缺少头文件

©2024 IT工具网联系我们