我想将语音录音与已知文本同步。是否有语音到文本/自然语言处理库可以促进这一点?我想我想检测单词边界并从字典中计算候选匹配项。我在 SO 上发现的大多数问题都与书面语言有关。
需要,但不是必需的:
编辑:我意识到这是一个非常广泛甚至幼稚的问题,因此在此先感谢您的指导。
到目前为止我发现了什么:
最佳答案
强制对齐
听起来你想做 forced alignment 在您的音频和已知文本之间。
几乎所有研究/工业级语音识别系统都能够做到这一点,因为强制对齐是在没有 phone 的数据上训练识别系统的重要部分。音频和抄本之间的电平对齐。
对齐CMUSphinx
Sphinx4-1.0 beta 5 release CMU 的开源语音识别系统现在包括一个关于如何在转录本和长语音录音之间进行对齐的演示。
关于nlp - 同步文本和音频。是否有 NLP/语音到文本库来执行此操作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4072020/