machine-learning - 在机器学习中，可以采取哪些措施来限制所需训练样本的数量？

在许多应用程序中，创建大型训练数据集即使不是完全不可能，也是非常昂贵的。那么可以采取哪些步骤来限制获得良好准确度所需的大小呢？

最佳答案

嗯，机器学习有一个分支专门致力于解决这个问题(标记数据集的成本很高):semi-supervised learning

老实说，根据我的经验，计算时间非常长，而且与完全标记的数据集相比，结果显得苍白......但是最好在大型未标记数据集上进行训练，而不是什么都没有!

<小时/>

编辑:嗯，我首先将问题理解为“标记数据集很昂贵”，而不是“无论如何，数据集的大小都会很小”

嗯，除其他外，我会:

使用 leave one out cross validation 调整我的参数。计算成本最高，但却是最好的。
选择收敛速度相当快的算法。 (你需要一个对照表，我现在没有)
需要非常好的泛化特性。在这种情况下，弱分类器的线性组合非常好。 kNN(k 个最近邻)非常糟糕。
偏置“泛化”参数。大多数算法都是在泛化(规律性)和质量(训练集是否被分类器很好地分类？)之间进行折衷。如果您的数据集很小，您应该使算法偏向于泛化(在通过交叉验证调整参数之后)

关于machine-learning - 在机器学习中，可以采取哪些措施来限制所需训练样本的数量？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7011971/