我有一系列音频文件(它们目前都是 wav 和 mp3)。这些文件由哔哔声、暂停和一个人的回复组成。我需要找出哔哔声和回复人之间的 react 时间。有很多数据,所以我想制作一个可以为我做这件事的程序。有谁知道这可以用什么语言完成,或者知道任何现有的程序可以做到这一点。我查看了 python 中的 wave 工具,似乎找不到任何代表低时刻的数据。
我的程序是这样运行的:
wav = open(wave file)
chunk = getNextChunk(wav)
volume = analyse(chunk)
check against threshold
if silent period, check for loud period
find difference
log time in seconds
任何人都可以帮我解决这个问题,我知道这是一个非常开放的问题,但我不知道从哪里开始,我已经在 java 和 python 等中编程过,但会使用最好的,与声音格式相同。将文件制作成单声道会更好吗?
谢谢你的帮助!
最佳答案
至于您选择的语言,我个人会选择 Matlab。但是它要花钱,而且由于您已经有使用 python 的经验,因此 numpy 模块可能对您来说是正确的选择。
根据您对问题的描述,这可能是一种方法:
去单声道会很好,同时减少你的数据量。
关于音频分析以检测低音量时段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14385655/