我学习了很多关于使用 MLE 训练 n-gram 模型的文档,但是当我注意到所有实现只是通过计算 n-gram 来计算条件概率时,我的问题是与 MLE 有何关系?
最佳答案
直观上,您必须计算世界上所有文本中的所有 n 元语法才能计算它们的概率。由于这是非常不现实的,MLE 提供了一种通过在给定语料库中计数这些 n-gram 概率来估计它们的方法。
例如,如果您需要单词 x 后面的单词 y 的二元概率,您可以将它们出现的次数作为一对进行计数, 。然后,您必须将此计数除以以 x 开头的所有二元组的总和(即:x 后跟每个可能的单词), 来标准化此计数。 ,因此 MLE 估计最终位于 0 和 1 之间。
因此,这个二元组概率可以通过以下表达式来估计:
请注意,此表达式可以进一步简化,因为以 x 开头的所有二元组计数的总和必须等于 x 本身的一元组计数:
关于machine-learning - 如何使用 MLE 来训练 n-gram 模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38523839/