我正在开发简单的 TTS 引擎。最好有一个自动双音素分割系统,该系统采用录音机声音和音素下标(对于单个话语)并设置声音中的音素边界。 可以用CMU Sphinx来完成吗?我应该使用哪个版本的 sphinx?
最佳答案
您可以使用 Sphinxtrain 训练特定于您的说话者的依赖于说话者的模型。有关培训的更多详细信息,请参阅
http://cmusphinx.sourceforge.net/wiki/tutorialam
要对数据库进行分段,您可以使用 sphinx3_align 二进制文件,如下所示:
sphinx3_align \
-hmm <model_dir> \
-dict dictionary.dic \
-ctl db.fileids \
-cepdir <feats_folder> \
-cepext .mfc \
-insent db.transcription \
-outsent db.out \
-phlabdir phlabdir
音素级对齐将在名为 phlabdir 的文件夹中创建
关于speech-recognition - 如何使用CMU Sphinx进行强制对齐音素识别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15929597/