有谁知道一个(最好是 C# .Net)库,它可以让我在录音中找到特定人说话的那些片段?
最佳答案
使用工具包 SHoUT 可以实现:http://shout-toolkit.sourceforge.net/index.html
它是用 C++ 编写的,并针对 Linux 进行了测试,但它也应该在 Windows 或 OSX 下运行。
该工具包是我博士研究自动语音识别 (ASR) 的副产品。将它用于 ASR 本身可能并不那么简单,但对于语音事件检测 (SAD) 和分类(查找一个特定人的所有语音),它非常易于使用。下面是一个例子:
./shout_segment -a [RAW_FILE] -ams [SHOUT_SAD_MODEL] -mo [SAD_OUTPUT]
输出文件将为您提供有人说话的片段(标有“SPEECH”。当然,因为这都是自动完成的,系统可能会出错..),其中有声音而不是语音(“声音”)或沉默(“沉默”)。
./shout_cluster -a [RAW_FILE] -mo [DIARIZATION_OUTPUT] -mi [SAD_OUTPUT]
使用shout_segment 的输出,它将尝试确定有多少说话人在录音中处于事件状态,标记每个说话人(“SPK01”、“SPK02”等),然后找到每个说话人的所有语音片段。
我希望这个能帮上忙!
关于speech-recognition - 当一个人说话时识别片段?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8284943/