audio - 定义脚本中每个单词的发音开始时间

标签 audio speech-recognition audio-streaming audio-processing

我有一个用于创建播客的文本脚本。因此,播客音频中的单词与我的文字完全相同。现在我想要的是以下内容:

Word in text | Pronounciation started at
Hello          0:0:0.000
my             0:0:1.125
friends        0:0:2.750

这有可能吗?
提前致谢!

最佳答案

可以用来解决问题复杂性的关键词之一是“强制对齐”。该网站还涵盖有关此主题的问题,例如here通过相关线程引导您提出有关HTK(隐马尔可夫模型工具包)的问题和答案。

您可以找到有关如何在自动音频分段here中使用强制对齐的更多动手风格描述。

因此答案是:是的,这是可能的,但是它在算法上非常复杂,即使在最佳实现中也不是没有错误的。

PS .:我发现您是一个非常简单的tool

关于audio - 定义脚本中每个单词的发音开始时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24454321/

相关文章:

c# - 从异步任务返回

mobile - 如何查找或搜索 FM 广播流媒体网址?

python - pyFluidsynth 'module' 对象没有属性 'Synth'

c# - wpf自定义控件: audiowaveform rectangle with selection slider

audio - ffmpeg:重复一个音频水印,除了第一帧

python - 如何训练 Python SpeechRecognition 2.1.1 库

c++ - 为什么减少窗口长度会导致频谱图中出现空行?

python - 如何使用 pydub 库从 mp3 文件生成带有 G.711alaw 的 wav?

encryption - Flutter 中是否有等效的 Exo Player?

macos - Mac Audio随机删除-有想法吗?