performance - 样本大小和分类器性能

我很好奇样本大小如何影响多标签分类中分类器的性能。我进行了一项实验，发现对于朴素贝叶斯等一些分类器，样本大小似乎并没有真正影响其准确性得分。

我的问题是 - 为什么样本大小只影响决策树或 SVM 等某些分类器？

最佳答案

其实这个问题与多标签设置无关。对于任何学习任务都是如此——分类、回归等等。

样本大小会影响一致的分类器(在给定足够大的样本量的情况下，收敛到真实的基础分布的分类器)。换句话说，它会影响那些能够过度拟合的分类器，即那些具有高方差和低偏差的分类器。

朴素贝叶斯总是以非常简单的方式对您的分布进行建模，它具有极强的偏差 - 对数据形状的假设。类似的论点也适用于线性 SVM，它也会得到一些分数，之后即使你添加更多分数也会停止变得更强。简而言之，他们正在分析的模型类别太小，无法代表实际关系。你可以从向三种动物教授事物的角度来思考:

你教他们如何避免痛苦——他们都做得很完美。然后，您添加新点(新数据)，现在您教他们“获取”，错误会失败，无论您向他们展示多少次如何获取。它们很简单，无法做到这一点...现在您继续教学计算对数...狗失败了，而人类成功了(在显示大量数据之后)。

现在，如果您使用带有 RBF 内核的 SVM 之类的东西，众所周知它是一致的，它将近似任何“行为良好”的分布。因此，如果你的问题是可以解决的，并且你给它足够的数据，它就会几乎完美地解决它。

关于performance - 样本大小和分类器性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33635309/