我正在 Weka 中使用 10 倍交叉验证进行小型分类任务。为了进行特征选择和调整分类器的参数,我使用了一小部分数据。我知道通常应该使用训练集和开发集。但是由于缺乏时间和计算能力,我只使用了所有数据的一小部分。这会对结果产生任何偏差吗?谢谢!
最佳答案
是的。根据偏差的定义,使用较小的集合意味着您对决定训练的任何部分都会有更高的偏差。如果您从较大的数据集中随机选择小样本,这种偏差将大大减少。
如果您只使用一小部分数据,10 倍交叉验证没有多大意义。交叉验证的想法是将大型数据集分成多个部分,用其中的交替部分作为训练集和测试集进行训练,迭代直到找到所有交叉验证集的最佳解决方案。
如果您没有太多时间或计算能力,我的第一个建议是减少 10 倍的简历检查。这意味着您可以在相同的计算时间内包含更大部分的数据集,并在 Weka 中快速评估许多不同的模型,然后再决定哪个更有希望继续推进。
如果您可以选择,对于最终的数据运行,我强烈建议使用全套算法,但是当您决定使用哪种算法时,使用全套算法的一部分并不可怕。设置。
关于machine-learning - 不使用开发集时的偏差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18262209/