audio - 无需语音识别即可检测多个声音

标签 audio mobile speech-recognition audio-analysis

有没有办法实时检测是否有多人说话?我需要语音识别 API 吗?

我不想分离音频,也不想转录它。我的方法是经常使用一只麦克风(-> 单声道)进行录音,然后分析这些录音。但是我该如何检测和区分声音呢?我会通过仅查看相关频率来缩小范围,但随后...

我确实明白这不是一件微不足道的事情。这就是为什么我确实希望有一个 api 能够开箱即用地执行此操作 - 最好是移动/网络友好的 api。

现在这听起来像是一份圣诞节购物 list ,但正如前面提到的,我不需要了解任何有关内容的信息。所以我的猜测是,成熟的语音识别会对性能造成很大影响。

最佳答案

大多数类似问题(成人/ child 分类器、语音/音乐分类器、单语音/语音混合分类器)都是标准的机器学习问题。您可以使用 GMM 等分类器来解决它们。您只需要为您的任务构建训练数据,因此:

  1. 录制一些干净的录音,您可以下载有声读物
  2. 通过混合干净的录音来准备混合数据
  3. 在两者上训练 GMM 分类器
  4. 比较干净语音 GMM 和混合语音 GMM 的概率,并根据两个分类器的概率比来确定混合的存在。

您可以在这里找到一些代码示例:

https://github.com/littleowen/Conceptor

例如你可以尝试

https://github.com/littleowen/Conceptor/blob/master/Gender.ipynb

关于audio - 无需语音识别即可检测多个声音,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38304540/

相关文章:

unity3d - unity : Difference between Audio Source, 音频监听器和音频剪辑

mobile - 卡片布局 - Flutter

python - 给定不同大小的音频文件进行音素识别?

java - Sphinx4 实时语音识别只能工作一次

speech-recognition - iOS 10的语音识别限制

ios - 如何创建实现多个音频单元的 AUAudioUnit?

android - 使音频播放器搜索栏可点击

c - FFmpeg - 音频编码在音频上产生额外的噪音

javascript - 如何将我的 WordPress 网站主页重定向到登陆页面,同时让网站的其余部分不受影响?

mobile - Google API OAuth 2.0 Titanium : Required parameter is missing: response_type