machine-learning - 准确度随训练数据大小的变化而波动

我目前正在做一个项目。我遇到一个问题，分类器的准确性随着训练数据集的大小而波动。例如:

Training data set% |Accuracy %
10%                | 50
20%                | 60
30%                | 55
40%                | 65
50%                | 80
60%                | 70
....               | ...

我的疑问是我选择了较弱的特征..就像这些特征非常多样化并且没有主导特征。有没有人有其他解决方案？

最佳答案

这种“波动”意味着您的模型具有很高的方差，这可能是由数据集的大小引起的。如果您不想观察波动，您的训练集大小(使用 10%!)应该足够大以能够代表您的问题。如果您的问题至少有点复杂，并且不是简单的二维二元分类，这意味着您可能应该收集约 10,000 个样本(因此 10% 是 1000)。否则的话——这并没有什么奇怪的。您可以尝试以引导方式收集这种准确性(通过替换进行采样以创建训练集)并重复数百次 - 这应该会在不牺牲统计意义的情况下稳定结果。

关于machine-learning - 准确度随训练数据大小的变化而波动，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36819628/

上一篇：machine-learning - 多语言文本垃圾邮件检测

下一篇：machine-learning - 强化学习 - 代理如何知道选择哪个 Action ？

python - 我的文本分类器模型无法通过多个类别得到改进

python - 使用条件随机场的多标签分类

language-agnostic - 自动同义词检测方法

python - 通过机器学习提取重叠类别

python - SVM - 将字符串传递给 Python 中的 CountVectorizer 向量化每个字符？

python - pyspark.ml : Type error when computing precision and recall

c++ - 如何在caffe中的Forward_gpu期间打印变量

r - 评估线性回归(在微软机器学习中

machine-learning - 如何在python scikit-learn中找到逻辑回归中的正则化参数？