我有一个音频文件和与该音频文件中的语音相对应的文本。
有什么方法可以将文本与音频相匹配,以便我得到类似时间戳的信息,显示文本文件中的单词在音频中出现的位置。
最佳答案
所以我已经找到了我正在寻找的东西。
显然,将给定文本与音频进行匹配并返回准确时间戳的技术称为强制对齐。
这是一个非常有用的链接,指向最佳强制对齐工具列表:https://github.com/pettarin/forced-alignment-tools
就我个人而言,我使用过Aeneas因为它对我来说非常有效。
关于python - 如何在Python中将文本与音频匹配?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67000827/