nlp - ARPA语言模型文档

标签 nlp speech-recognition cmusphinx sphinx4 language-model

在哪里可以找到有关ARPA语言模型格式的文档?

我正在使用Pocket-Sphinx STT引擎开发简单的语音识别应用程序。出于性能考虑,建议在此处使用ARPA。
我想了解我可以做些什么来针对我的自定义需求调整语言模型。

我发现的只是一些非常简短的ARPA格式说明:


http://kered.org/blog/2008-08-12/arpa-language-model-file-format/
http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html
http://www.speech.cs.cmu.edu/SLM/toolkit_documentation.html


我是STT的初学者,我很难将它包起来(n-gram等)。我正在寻找更详细的文档。类似于JSGF语法的文档在这里:

http://www.w3.org/TR/jsgf/

最佳答案

关于这些格式,实际上没有什么比这些文档中所说的更多的了。

此外,您可能需要准备一个带有示例句子和generate the language file based on it的文本文件。有一个可以为您完成的在线版本:lmtool

关于nlp - ARPA语言模型文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16408163/

相关文章:

error-handling - 如何更改此应用程序以禁用命令行输入?

python - Spacy 无法正确识别日期

python - CountVectorizer 给出错误的单词计数?

nlp - 如何使用带有 nltk 的斯坦福 Open IE

java - C、Java 或 PHP 中的语音识别?

python - recognize_google语音识别破管python

在函数 ‘ptmr_start’ 和 ‘ptmr_stop’ 中安装 Sphinxbase 时出现编译错误

machine-learning - 基于CSV文件的搜索引擎

android - 如何从谷歌的 "Voice Actions"获取语音识别结果?

java - Sphinx4 的 SphinxTrain 的示例配置/属性 xml 文件