我的项目是使用麦克风进行说话人识别。
我正在使用 speeh_recognition 库来提取我的麦克风音频,但该对象的类是“speech_recognition.AudioData”,我不知道如何将其转换为 wav 文件(例如为了使用 librosa)获取音频功能并可能识别说话者)。
有人可以帮我吗?我学习 Python 的时间不长,所以可能还有更简单的方法来使用麦克风进行说话人识别:) 非常感谢!
最佳答案
将音频写入 WAV 文件:
with open("microphone-results.wav", "wb") as f:
f.write(audio.get_wav_data())
引用doc :
Returns a byte string representing the contents of a WAV file containing the audio represented by the AudioData instance.
关于python - Python 上麦克风的 Wav 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46738569/