python - 为什么 cross_val_predict 不适合测量泛化误差?

标签 python scikit-learn svm cross-validation

当我使用交叉验证训练 SVC 时,

y_pred = cross_val_predict(svc, X, y, cv=5, method='predict')

cross_val_predict 为 X 中的每个元素返回一个类预测,因此 y_pred.shape = (1000,)m=1000 时。 这是有道理的,因为 cv=5 因此 SVC 在 X 的不同部分上训练和验证了 5 次。在五次验证中的每一次中,都对五分之一的实例进行了预测(m/5 = 200)。随后,5 个向量(每个包含 200 个预测)被合并到 y_pred

考虑到所有这些,我可以合理地使用 y_pred 和 y 来计算 SVC 的整体精度。

score = accuracy_score(y, y_pred)

但是(!)cross_val_predict 的文档指出:

The result of cross_val_predict may be different from those obtained using cross_val_score as the elements are grouped in different ways. The function cross_val_score takes an average over cross-validation folds, whereas cross_val_predict simply returns the labels (or probabilities) from several distinct models undistinguished. Thus, cross_val_predict is not an appropriate measure of generalisation error.

有人可以换句话说,为什么 cross_val_predict 不适合测量泛化误差,例如通过 accuracy_score(y, y_pred)?


编辑:

我首先假设 cv=5 在 5 个验证中的每一个中都会对 X 的所有实例进行预测。但这是错误的,只对 1/5 的实例进行预测X 每次验证。

最佳答案

cross_val_score 与 cross_val_predict

cross_val_predictcross_val_score 之间的差异描述得非常清楚 here那里还有另一个链接,所以你可以关注兔子。

本质上:

  • cross_val_score 返回得分每个折叠
  • cross_val_predict 对每个数据点进行折叠预测。

现在,您无法知道 cross_val_predict 中的哪些预测来自哪个折叠,因此您无法像 cross_val_score 那样计算每次折叠的平均值。您可以对 cross_val_predictcross_val_scoreaccuracy_score 进行平均,但是 average of averages is not equal to average ,因此结果会有所不同。

如果一次折叠的准确度非常低,那么它对整体平均值的影响会比平均 cross_val_predict 的影响更大。

此外,您可以对这七个数据点进行不同的分组并获得不同的结果。这就是为什么有关于分组产生差异的信息。

cross_val_score 和 cross_val_predict 的区别示例

让我们假设 cross_val_predict 对 7 个数据点使用 3 折,并且折叠预测为 [0,1,1,0,1,0,1],而真正的目标是 [0,1,1,0,1,1,0]。准确度得分将计算为 5/7(只有最后两个预测错误)。

现在采用相同的预测并将它们分成以下 3 个部分:

  • [0, 1, 1] - 预测和 [0, 1, 1] 目标 -> 第一次折叠的准确度为 1
  • [0, 1] - 预测和[0, 1] 目标 -> 再次完美准确
  • [0, 1] - 预测和 [1, 0] 目标 -> 0 准确度

这就是 cross_val_score 所做的并将返回一个精度元组,即 [1, 1, 0]。现在,您可以对这个元组进行平均,总准确度为 2/3

看到了吗?对于相同的数据,您将获得两种不同的准确性度量(一种是5/7,另一种是2/3)。

在这两种情况下,分组都会改变您获得的总准确度。 cross_val_score 的分类器错误更严重,因为每个错误对组的准确性的影响大于对所有预测的平均准确性的影响(您可以自己检查)。

虽然两者都可用于评估模型在验证集上的性能,但我认为没有禁忌症,只是行为不同(折叠错误没有那么严重)。

为什么两者都不是泛化的衡量标准

如果您根据交叉验证方案拟合您的算法,则您正在执行数据泄漏(针对训练和验证数据对其进行微调)。为了了解泛化错误,您必须将一部分数据排除在交叉验证和训练之外

您可能想要执行双重交叉验证,或者只留下测试集来了解您的模型实际泛化的程度。

关于python - 为什么 cross_val_predict 不适合测量泛化误差?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55009704/

相关文章:

python - 在 iPython 笔记本代码中验证 PEP8

python - scikit 学习 : custom classifier compatible with GridSearchCV

python - scikit-learn 中 train_test_split() 的不稳定行为

python - 是否可以在 scikit-learn 中打印决策树?

r - 添加进度条或百分比来调整 R 中的功能

python - 如何使用自定义 SVM 内核?

opencv - C++中的HOG描述符实现

python - Pandas DataFrame 步骤图 : where ="post"

python - 从 json 文件创建 Python 事件资源对象

python - 按特定数字进行浮点精度比较