假设我有一个(x, y)
对的训练集,其中x
是输入示例,y
是相应的目标y
是一个值 (1 ... k)
(k
是类的数量)。
在计算训练集的似然度时,是否应该针对整个训练集(所有的例子)进行计算,即:
L = P(y | x) = p(y1 | x1) * p(y2 | x2) * ...
或者是针对特定训练示例计算的可能性(x, y)
?
我问是因为我看到了这些lecture notes (第 2 页),他似乎在计算 L_i,即分别计算每个训练示例的可能性。
最佳答案
似然函数描述了在给定一些参数的情况下生成一组训练数据的概率,并且可用于查找以最大概率生成训练数据的那些参数。您可以为训练数据的子集创建似然函数,但这不能代表整个数据的可能性。然而,您可以做的(以及在讲义中显然默默完成的)是假设您的数据是 independent and identically distributed (iid) 。因此,您可以将联合概率函数拆分为更小的部分,即 p(x|theta) = p(x1|theta) * p(x2|theta) * ...
(基于独立性)假设),并且您可以对每个部分使用具有相同参数(theta)的相同函数,例如正态分布(基于同一性假设)。然后,您可以使用对数将乘积转换为总和,即 p(x|theta) = p(x1|theta) + p(x2|theta) + ...
。该函数可以通过将其导数设置为零来最大化。由此产生的最大值是 theta,它以最大概率创建您的 x,即您的最大似然估计。
关于machine-learning - 可能性是针对整个训练集还是单个示例计算的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30640125/