machine-learning - 不使用开发集时的偏差

我正在 Weka 中使用 10 倍交叉验证进行小型分类任务。为了进行特征选择和调整分类器的参数，我使用了一小部分数据。我知道通常应该使用训练集和开发集。但是由于缺乏时间和计算能力，我只使用了所有数据的一小部分。这会对结果产生任何偏差吗？谢谢!

最佳答案

是的。根据偏差的定义，使用较小的集合意味着您对决定训练的任何部分都会有更高的偏差。如果您从较大的数据集中随机选择小样本，这种偏差将大大减少。

如果您只使用一小部分数据，10 倍交叉验证没有多大意义。交叉验证的想法是将大型数据集分成多个部分，用其中的交替部分作为训练集和测试集进行训练，迭代直到找到所有交叉验证集的最佳解决方案。

如果您没有太多时间或计算能力，我的第一个建议是减少 10 倍的简历检查。这意味着您可以在相同的计算时间内包含更大部分的数据集，并在 Weka 中快速评估许多不同的模型，然后再决定哪个更有希望继续推进。

如果您可以选择，对于最终的数据运行，我强烈建议使用全套算法，但是当您决定使用哪种算法时，使用全套算法的一部分并不可怕。设置。

关于machine-learning - 不使用开发集时的偏差，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18262209/