我想制作一个应用程序来计算录音中每个发言者的讲话时间。我不在乎进行完整的语音识别并转录录音中的每个单词,我只想要每个声音的说话时间。
有没有一款软件可以提供这样的功能?
如果可能,我希望避免使用第三方服务(例如 Google Cloud)来实现此目的,并且我希望该解决方案足够轻巧,可以在现代智能手机上运行。
感谢您的帮助。
最佳答案
我也有同样的想法。看看这个https://github.com/pyannote/pyannote-audio
我自己还没试过。之后将添加编辑。
关于audio - 检测录音中的不同说话者,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73306435/