nlp - 同步文本和音频。是否有 NLP/语音到文本库来执行此操作？

标签 nlp speech-recognition pattern-recognition

我想将语音录音与已知文本同步。是否有语音到文本/自然语言处理库可以促进这一点？我想我想检测单词边界并从字典中计算候选匹配项。我在 SO 上发现的大多数问题都与书面语言有关。

需要，但不是必需的:

开源

兼容美式英语开箱即用

跨平台

完整记录

编辑:我意识到这是一个非常广泛甚至幼稚的问题，因此在此先感谢您的指导。

到目前为止我发现了什么:

OpenEars (iOS Sphinx/Flite 包装器)

最佳答案

强制对齐

听起来你想做 forced alignment 在您的音频和已知文本之间。

几乎所有研究/工业级语音识别系统都能够做到这一点，因为强制对齐是在没有 phone 的数据上训练识别系统的重要部分。音频和抄本之间的电平对齐。

对齐CMUSphinx

Sphinx4-1.0 beta 5 release CMU 的开源语音识别系统现在包括一个关于如何在转录本和长语音录音之间进行对齐的演示。

关于nlp - 同步文本和音频。是否有 NLP/语音到文本库来执行此操作？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4072020/

上一篇：visual-studio - 通过 [proj].deploy.cmd 发布时，Web Deploy 返回 401 未授权

下一篇：macos - 在 Mac 上使用什么 Common Lisp 环境？

java - 如何用英语句子检测产品的特征 - nlp

python - 使用nltk进行通用同义词和词性处理

python - 使用 Wordnet Lemmatizer 获取词根

java - 没有谷歌弹出窗口的Android应用程序中的连续语音识别

android - openEAR - 介绍慕尼黑开源情感和情感识别工具包

opencv - 使用opencv/Emgucv进行屏幕检测

azure - 如何为 MS Azure 语音转文本服务启用字级置信度

image-processing - 查找图像中的重复图案/图像

c++ - 为什么这行不通； opencv Mat_<float>