python - Statsmodels OLS回归: Log-likelihood,用途和解释

标签 python statistics statsmodels

我正在使用 python 的 statsmodels 包来进行线性回归。在R^2p等的输出中也存在“对数似然”。在文档中,这被描述为“拟合模型的似然函数的值”。我查看了源代码,但不太明白它在做什么。

阅读有关似然函数的更多内容后,我对这个“对数似然”值的含义或用途仍然有非常模糊的想法。所以有几个问题:

  • 在线性回归的情况下,似然函数的值不是与参数的值(本例中为 beta)相同吗?根据以下推导得出方程 12,似乎是这样: http://www.le.ac.uk/users/dsgp1/COURSES/MATHSTAT/13mlreg.pdf

  • 知道似然函数的值有什么用?是为了与具有相同响应和不同预测变量的其他回归模型进行比较吗?实际的统计学家和科学家如何使用 statsmodels 吐出的对数似然值?

最佳答案

似然(以及扩展的对数似然)是统计学中最重要的概念之一。它用于一切。

对于第一点,可能性与参数值不同。可能性是给定一组参数估计的整个模型的可能性。它的计算方法是采用一组参数估计值,计算每个参数的概率密度,然后将所有观测值的概率密度相乘(这遵循概率论,即 P(A 和 B) = P(A)P( B)如果A和B是独立的)。在实践中,这对于线性回归意味着什么以及推导所显示的是,您采用一组参数估计值(beta,sd),将它们插入正常的 pdf 中,然后计算该组中每个观测值 y 的密度。参数估计。然后,将它们全部相乘。通常,我们选择使用对数似然,因为它更容易计算,因为我们可以求和 (log(a*b) = log(a) + log(b)),而不是乘法,这样计算速度更快。此外,我们倾向于最小化负对数似然(而不是最大化正对数似然),因为优化器有时在最小化方面比在最大化方面效果更好。

为了回答你的第二点,对数似然几乎用于所有事情。这是我们用来查找大量模型的参数估计(最大似然估计)的基本量。对于简单的线性回归,这些估计结果与最小二乘法的估计值相同,但对于更复杂的模型,最小二乘法可能不起作用。它还用于计算 AIC,AIC 可用于比较具有相同响应和不同预测变量的模型(但会惩罚参数数量,因为参数越多 = 拟合效果越好)。

关于python - Statsmodels OLS回归: Log-likelihood,用途和解释,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26534181/

相关文章:

python - 用Python的statsmodels的OLS线性回归进行曲线拟合时,公式中的常数如何选择?

python - 如何找到阈值内最长的子数组?

python - NetBox 安装期间出错,无法使用 manage.py 创建 super 用户

numpy - np.random.binomial(n,p, size = 1000) 中 n 和 size 参数之间的差异

python - 用 Scipy (Python) 将经验分布拟合到理论分布?

jupyter-notebook - 导入错误: cannot import name 'STL' from 'statsmodels.tsa.seasonal'

python - Python 中的增强 Dickey-Fuller 测试存在少量观察的问题

python - 如何以与数据库一致的方式计算应用程序的Python端点之间的距离

python - 抽象类可以强制继承类将方法实现为静态吗?

R:将曲线拟合到点:使用什么线性/非线性模型?