linux - 使用其音频源和开源工具高效生成预转录语音的时间索引

标签 linux speech-recognition cmusphinx transcription

在 TED.com 上,他们有转录,点击转录的一部分时,他们会转到视频的相应部分。

我想在带有 OSS 的 Linux 上对我拥有的 80 小时的音频和转录进行此操作。

这是我正在考虑的方法:

  1. 从 30 分钟的样本开始
  2. 将音频分成 2 分钟的 WAV 文件格式 block ,即使它会打断单词
  3. 在每个 block 上运行来自 CMU Sphinx 的 long-audio-aligner 的短语 spotter,以及文字记录
  4. 获取在每一位中找到的已识别单词/短语的时间索引,并计算原始音频文件中 ngram 的实际估计时间。

这看起来是一种有效的方法吗?有没有人真的这样做过?

是否有值得尝试的替代方法,例如可能足够准确的哑词计数?

最佳答案

您只需将所有音频和文本输入一个长音频校准器,它就会为您提供单词的时间戳。使用此时间戳,您可以跳转到文件中的特定单词。

我不确定你为什么要拆分音频或做其他事情。

关于linux - 使用其音频源和开源工具高效生成预转录语音的时间索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11320018/

相关文章:

linux - 从 Yocto build 手动构建内核源代码

linux - 如何使用脚本将一台服务器的备份数据同步到另一台服务器?

python - Jupyter笔记本应用程序启动错误

android - 将文件 Assets 打包成apk?

java - CMU Sphinx4 无法构建项目

java - Namenode恶魔启动错误

android - 为什么在调用 onEndOfSpeech 后启动 SpeechRecognizer 时它很忙?

Android startActivityForResult 请求代码与启动谷歌语音到文本时给出的不同

python-2.7 - 无法使用语音识别解决缺少的 google-api-python-client 模块

java - 如何使用 java 和 CMU Sphinx 将音频文件分解为多个片段,然后将分解的音频文件转录为文本