performance - 样本大小和分类器性能

标签 performance machine-learning

我很好奇样本大小如何影响多标签分类中分类器的性能。我进行了一项实验,发现对于朴素贝叶斯等一些分类器,样本大小似乎并没有真正影响其准确性得分。

我的问题是 - 为什么样本大小只影响决策树或 SVM 等某些分类器?

最佳答案

其实这个问题与多标签设置无关。对于任何学习任务都是如此——分类、回归等等。

样本大小会影响一致的分类器(在给定足够大的样本量的情况下,收敛到真实的基础分布的分类器)。换句话说,它会影响那些能够过度拟合的分类器,即那些具有高方差和低偏差的分类器。

朴素贝叶斯总是以非常简单的方式对您的分布进行建模,它具有极强的偏差 - 对数据形状的假设。类似的论点也适用于线性 SVM,它也会得到一些分数,之后即使你添加更多分数也会停止变得更强。简而言之,他们正在分析的模型类别太小,无法代表实际关系。你可以从向三种动物教授事物的角度来思考:

  • 错误
  • 人类

你教他们如何避免痛苦——他们都做得很完美。然后,您添加新点(新数据),现在您教他们“获取”,错误会失败,无论您向他们展示多少次如何获取。它们很简单,无法做到这一点...现在您继续教学计算对数...狗失败了,而人类成功了(在显示大量数据之后)。

现在,如果您使用带有 RBF 内核的 SVM 之类的东西,众所周知它是一致的,它将近似任何“行为良好”的分布。因此,如果你的问题是可以解决的,并且你给它足够的数据,它就会几乎完美地解决它。

关于performance - 样本大小和分类器性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33635309/

相关文章:

performance - 做 HTTP 基准测试后如何计算平均情况

python - Tensorflow embedding_lookup

machine-learning - 使用 Weka 进行无监督聚类

wpf - 如何在程序中最好地显示大量项目

javascript - 为什么浏览器并不总是在执行 JavaScript 之前完成对前面 HTML 的渲染?

matlab - MATLAB 中是否有修正线性函数 max(0,x) 的优化矢量化函数?

apache-spark - Spark MLLib 如何在训练分类器时忽略特征

machine-learning - 随机梯度下降与小批量大小 1

css - 重复标题选择器

javascript - Sweet Alert JS库-修改动画速度