我想为“Sinhala Language speech recognition
”僧伽罗语建立新的声学模型、新词典、新语言模型字符是基于 Unicode 的。例如 A=අ,I=ඉ,U=උ,KA=ක,BA=බ。
我确实通过了 CMUSphinx Tutorial For Developers .但这对我没有帮助。它适用于英语。
语言模型应该是ARPA模型。以及如何用英语音素映射僧伽罗语 Unicode 以及如何训练不同语音的语言模型。
是否有任何工具可用于生成基于 Unicode 的语言模型?
最佳答案
总的来说,它并不复杂。首先,您需要将任务拆分为:构建语音词典、构建语言模型、构建声学模型。从拼音词典开始。
您需要编写一个 Python 脚本来将 unicode 输入映射到音译:
රට r a tt a
එකඟයි e k a ng a yi
අවසර දිම a v a s a r a d i m a
基本上为每一个你写一个相应的音译。这就是您需要做的所有事情,稍后您可以将单词列表输入脚本并获得 cmusphinx 格式的字典。这部分在教程中有介绍
http://cmusphinx.sourceforge.net/wiki/tutorialdict
一旦您有了音译工具,您就可以继续使用语言模型。您需要大量文本来构建语言模型。您可以从维基百科或本地报纸下载文本。然后您可以使用任何语言模型工具包来创建 ARPA 模型。它们都支持 unicode - SRILM、MITLM、IRSTLM,你可以使用它们中的任何一个。这部分在教程中有介绍
http://cmusphinx.sourceforge.net/wiki/tutoriallm
第三步是创建一个声学模型。您需要录制音频或对现有录音进行分段并开始培训。这部分也包含在教程中
http://cmusphinx.sourceforge.net/wiki/tutorialam
关于speech-recognition - 构建新的声学模型、词典、用于罕见语言语音识别的语言模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31050003/