在许多应用程序中,创建大型训练数据集即使不是完全不可能,也是非常昂贵的。那么可以采取哪些步骤来限制获得良好准确度所需的大小呢?
最佳答案
嗯,机器学习有一个分支专门致力于解决这个问题(标记数据集的成本很高):semi-supervised learning
老实说,根据我的经验,计算时间非常长,而且与完全标记的数据集相比,结果显得苍白......但是最好在大型未标记数据集上进行训练,而不是什么都没有!
<小时/>编辑:嗯,我首先将问题理解为“标记数据集很昂贵”,而不是“无论如何,数据集的大小都会很小”
嗯,除其他外,我会:
使用 leave one out cross validation 调整我的参数。计算成本最高,但却是最好的。
选择收敛速度相当快的算法。 (你需要一个对照表,我现在没有)
需要非常好的泛化特性。在这种情况下,弱分类器的线性组合非常好。 kNN(k 个最近邻)非常糟糕。
偏置“泛化”参数。大多数算法都是在泛化(规律性)和质量(训练集是否被分类器很好地分类?)之间进行折衷。如果您的数据集很小,您应该使算法偏向于泛化(在通过交叉验证调整参数之后)
关于machine-learning - 在机器学习中,可以采取哪些措施来限制所需训练样本的数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7011971/