speech-recognition - 如何使用CMU Sphinx进行强制对齐音素识别？

标签 speech-recognition text-to-speech cmusphinx

我正在开发简单的 TTS 引擎。最好有一个自动双音素分割系统，该系统采用录音机声音和音素下标(对于单个话语)并设置声音中的音素边界。可以用CMU Sphinx来完成吗？我应该使用哪个版本的 sphinx？

最佳答案

您可以使用 Sphinxtrain 训练特定于您的说话者的依赖于说话者的模型。有关培训的更多详细信息，请参阅

http://cmusphinx.sourceforge.net/wiki/tutorialam

要对数据库进行分段，您可以使用 sphinx3_align 二进制文件，如下所示:

  sphinx3_align \
    -hmm <model_dir> \
    -dict dictionary.dic \
    -ctl db.fileids \
    -cepdir <feats_folder> \
    -cepext .mfc \
    -insent db.transcription \
    -outsent db.out \
    -phlabdir phlabdir

音素级对齐将在名为 phlabdir 的文件夹中创建

关于speech-recognition - 如何使用CMU Sphinx进行强制对齐音素识别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15929597/

上一篇：google-apps-script - 带电子表格的 Google 脚本 - 计算列值的函数

下一篇：oracle - 日期字符串在日期范围选择语句中不起作用

c# - Windows 8.1 和 Windows Phone 8 中的语音识别

Java 语音识别 API

google-chrome - chrome.tts.speak字符数限制

android - 在 Android 中接到电话时说出录制的文本

c++ - 用于基于语音的命令激活的开源库

ios - swift:如何在单击按钮上对所有单元格进行 TTS

node.js - pocketsphinx 会刷新标准输出吗？

speech-recognition - 如何在帧上分割语音数据并计算 MFCC

python - 如何在 Python 中使用带有 pocketsphinx 的 jsgf 语法文件检索单词的规则名称？