python - 如何评估分类器在测试数据上的性能?

标签 python machine-learning scikit-learn

我正在使用 scikit 制作一个监督分类器,目前正在对其进行调整,以便在标记数据上提供良好的准确性。但是我如何估计它在测试数据(未标记)上的表现如何?

另外,我如何知道我是否开始过度拟合分类器?

最佳答案

您无法对未标记的数据对您的方法进行评分,因为您需要知道正确的答案。为了评估方法,您应该将训练集分为(新)训练和测试(例如,通过 sklearn.cross_validation.train_test_split )。然后将模型拟合到训练中并在测试中评分。 如果您没有大量数据并且保留其中一些数据可能会对算法的性能产生负面影响,请使用 cross validation .

由于过度拟合无法泛化,因此低测试分数是一个很好的指标。

有关更多理论和其他一些方法,请查看 this article .

关于python - 如何评估分类器在测试数据上的性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24315765/

相关文章:

python - 字符串转换为干净的 int 列表

python - 如何在 Scikit-learn 中获取 OneHotEncoder 的维度数

java - 解释 StringToWordVector() 的输出 - Weka

python - 如何更新python中的变量列表?

python - 在 python 中测试时如何删除装饰器的效果?

python 用序列设置数组元素时出错

python - sklearn中KMeans的变换是否可以逆转?

Python - 在 0.17 中不推荐将 1d 数组作为数据传递,并将在 0.19 中引发 ValueError

Python 请求 set-cookie 未正确设置

python - 损失函数作为几个点的最小值,自定义损失函数和梯度