machine-learning - 估计优化模型测试误差的正确方法

标签 machine-learning scikit-learn

上下文:

根据 Muller 的《Introduction to Machine Learning with python》推荐的工作流程,人们会对流程开始时留下的测试集进行单一分数评估:

enter image description here

与可以使用多个(不同)模型的嵌套交叉验证相比,这具有获得具有超参数集的给定模型的优点。

对单个测试集的评估给出了具有高方差的估计量。

问题:

有没有什么方法可以比这个单一分数获得更好的泛化误差估计? (即使这种方法需要更多的训练迭代)

最佳答案

工作流程很完美,但我认为您的模型需要一些改进。 您可以将数据集划分为训练/验证/测试集。然后,您可以使用交叉验证对训练数据进行训练,继续对验证集进行测试,直到获得良好的结果,然后作为最后一步使用测试数据。

关于machine-learning - 估计优化模型测试误差的正确方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46797442/

相关文章:

machine-learning - 如何将文本转换为矢量

python - 如何阻止特定单元格在 google colab 中运行?

python-3.x - 通过网格搜索调整模型

statistics - 使用机器学习进行预测

python - Yelp 数据文件类型

python - 在tensorflow中加载多个DNN模型并多次使用它们

python - 使用 pandas 和 scikit (OneHotEncoder) 虚拟化逻辑回归的分类变量

python - scikit KernelPCA 结果不稳定

python - 如何在不重复构造函数中的所有参数的情况下在 scikit-learn 中子类化矢量化器

python - NN 的 DNA 数据输入,一种热编码