我手上有一个分类问题,我想用机器学习算法来解决这个问题(贝叶斯,或者马尔可夫可能,这个问题与要使用的分类器无关)。给定大量训练实例,我正在寻找一种方法来衡量已实现的分类器的性能,并考虑数据过度拟合问题。
也就是说:给定 N[1..100] 个训练样本,如果我对每个样本运行训练算法,并使用相同的样本来测量适应度,它可能会陷入数据过度拟合问题 -分类器将知道训练实例的确切答案,但没有太多的预测能力,使得适应度结果毫无用处。
一个明显的解决方案是将手工标记的样本分为训练样本和测试样本;我想了解选择具有统计意义的样本进行训练的方法。
非常感谢白皮书、书籍指南和 PDF!
最佳答案
您可以使用10-fold Cross-validation为了这。我相信这是分类算法性能评估的非常标准的方法。
基本思想是将学习样本分为 10 个子集。然后使用一个子集作为测试数据,使用其他子集作为训练数据。对每个子集重复此操作,并在最后计算平均性能。
关于artificial-intelligence - 衡量分类算法的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/406518/