我在 R 中实现了一个新的统计模型,它可以在我的沙箱中运行,但我想让它更加标准。一个很好的比较是 lm()
,我可以在其中获取模型对象并且:
- 应用
summary()
函数 - 提取模型的系数
- 从拟合(训练)数据中提取残差
- 更新模型
- 应用
predict()
函数 - 将
plot()
应用于预先选定的描述性绘图 - 享受许多其他类型的快乐
我浏览了 R 手册、在线搜索并翻阅了几本书,除非我忽略了某些内容,否则我找不到关于新模型包中应包含哪些内容的好教程。
尽管我对详尽的引用资料或指南最感兴趣,但我将把这篇文章的重点放在一个包含两个组成部分的问题上:
- 模型对象中通常包含哪些关键组件?
- 建模包中通常实现的典型功能有哪些?
答案可以来自 R Core(或包开发人员)的角度,也可以来自用户的角度,例如用户期望能够使用汇总、预测、残差、系数等功能,并且通常期望在拟合模型时传递公式。
最佳答案
把你认为有用和必要的东西放入对象中。我认为一个更重要的问题是如何包含这些信息,以及如何访问它。
至少,提供一个 print()
方法,以便在打印对象时整个对象不会转储到屏幕上。如果您提供 summary()
方法,则约定是让该对象返回 summary.foo
类的对象(其中 foo
是您的类),然后提供一个 print.summary.foo()
方法 --- 您不希望您的 summary()
方法本身执行任何打印。
如果您有系数、拟合值和残差,并且这些很简单,那么您可以将它们存储在返回的对象中,如 $coefficients
、$fitted.values
和 $residuals
分别。然后,coef()
、fitted()
和 resid()
的默认方法将起作用,而无需添加您自己的定制方法。如果这些并不简单,那么请为您的类提供您自己的 coef()
、fitted.values()
和 residuals()
方法。我所说的不简单是指,例如,如果有多种类型的残差,并且您需要处理存储的残差以获取请求的类型——那么您需要自己的方法,该方法采用 type
参数或类似的参数以从可用的残差类型中进行选择。有关示例,请参阅 ?residuals.glm
。
如果可以有效地提供预测,则可以提供 predict()
方法。例如,查看 predict.lm()
方法,了解应采用哪些参数。同样,如果通过添加/删除项或更改模型参数来更新模型有意义,则可以提供 update()
。
plot.lm()
给出了提供拟合模型的多个诊断图的方法示例。您可以根据该函数对您的方法进行建模,以从一组预定义的诊断图中进行选择。
如果您的模型具有可能性,那么提供一个 logLik()
方法来计算或从拟合模型对象中提取它是标准的,deviance()
是另一个方法如果这样的事情相关的话,类似的功能。对于参数的置信区间,confint()
是标准方法。
如果您有公式接口(interface),则 formula()
方法可以提取它。如果您将其存储在默认方法搜索的位置,那么您的生活将会变得更轻松。存储它的一个简单方法是将匹配的调用 (match.call()
) 存储在 $call
组件中。提取模型框架 (model.frame()
) 和模型矩阵 (model.matrix()
) 的方法,它们是数据和扩展(使用转换为变量的因子)对比,加上模型框架数据的任何转换或函数)模型矩阵是标准提取器函数。查看标准 R 建模函数中的示例,了解如何存储/提取此信息的想法。
如果您确实使用公式接口(interface),请尝试遵循大多数具有公式接口(interface)/方法的 R 模型对象中使用的标准、非标准评估方法。您可以在 R Developer 上找到详细信息。页面,特别是document作者:托马斯·拉姆利。这为让您的函数像人们期望的 R 建模函数一样工作提供了很多建议。
如果您遵循此范例,那么像 na.action()
这样的提取器应该在您遵循标准(非标准)规则的情况下工作。
关于r - R 中标准模型对象的关键组件和功能是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6849410/