在 TED.com 上,他们有转录,点击转录的一部分时,他们会转到视频的相应部分。
我想在带有 OSS 的 Linux 上对我拥有的 80 小时的音频和转录进行此操作。
这是我正在考虑的方法:
- 从 30 分钟的样本开始
- 将音频分成 2 分钟的 WAV 文件格式 block ,即使它会打断单词
- 在每个 block 上运行来自 CMU Sphinx 的 long-audio-aligner 的短语 spotter,以及文字记录
- 获取在每一位中找到的已识别单词/短语的时间索引,并计算原始音频文件中 ngram 的实际估计时间。
这看起来是一种有效的方法吗?有没有人真的这样做过?
是否有值得尝试的替代方法,例如可能足够准确的哑词计数?
最佳答案
您只需将所有音频和文本输入一个长音频校准器,它就会为您提供单词的时间戳。使用此时间戳,您可以跳转到文件中的特定单词。
我不确定你为什么要拆分音频或做其他事情。
关于linux - 使用其音频源和开源工具高效生成预转录语音的时间索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11320018/