speech-recognition - 构建新的声学模型、词典、用于罕见语言语音识别的语言模型

标签 speech-recognition cmusphinx sphinx4

我想为“Sinhala Language speech recognition”僧伽罗语建立新的声学模型、新词典、新语言模型字符是基于 Unicode 的。例如 A=අ,I=ඉ,U=උ,KA=ක,BA=බ。
我确实通过了 CMUSphinx Tutorial For Developers .但这对我没有帮助。它适用于英语。

语言模型应该是ARPA模型。以及如何用英语音素映射僧伽罗语 Unicode 以及如何训练不同语音的语言模型。
是否有任何工具可用于生成基于 Unicode 的语言模型?

最佳答案

总的来说,它并不复杂。首先,您需要将任务拆分为:构建语音词典、构建语言模型、构建声学模型。从拼音词典开始。

您需要编写一个 Python 脚本来将 unicode 输入映射到音译:

රට  r a tt a
එකඟයි   e k a ng a yi
අවසර දිම    a v a s a r a d i m a

基本上为每一个你写一个相应的音译。这就是您需要做的所有事情,稍后您可以将单词列表输入脚本并获得 cmusphinx 格式的字典。这部分在教程中有介绍

http://cmusphinx.sourceforge.net/wiki/tutorialdict

一旦您有了音译工具,您就可以继续使用语言模型。您需要大量文本来构建语言模型。您可以从维基百科或本地报纸下载文本。然后您可以使用任何语言模型工具包来创建 ARPA 模型。它们都支持 unicode - SRILM、MITLM、IRSTLM,你可以使用它们中的任何一个。这部分在教程中有介绍

http://cmusphinx.sourceforge.net/wiki/tutoriallm

第三步是创建一个声学模型。您需要录制音频或对现有录音进行分段并开始培训。这部分也包含在教程中

http://cmusphinx.sourceforge.net/wiki/tutorialam

关于speech-recognition - 构建新的声学模型、词典、用于罕见语言语音识别的语言模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31050003/

相关文章:

java - Google 语音 API 抛出无效的音频 channel 数

android - 如何从 Android 使用 Google Cloud 语音 API?

java - 用于在音频文件中转录语音的开源软件

java - Sphinx4 与 Pocketsphinx

java - 如何使用 AudioInputStream 的中间录制 x 秒的文件,并继续流式传输?

javascript - Chrome 中使用 javascript 的语音转文本无法识别任何内容

android - 如何构建 BufferReceived() 以使用 RecognizerIntent 捕获语音?

python - 包括 CMU pocketsphinx gstreamer 的语法

speech-recognition - 使用CMU的sphinx4转录非数字数据

java - Sphinx LineUnavailableException