machine-learning - 不使用开发集时的偏差

标签 machine-learning

我正在 Weka 中使用 10 倍交叉验证进行小型分类任务。为了进行特征选择和调整分类器的参数,我使用了一小部分数据。我知道通常应该使用训练集和开发集。但是由于缺乏时间和计算能力,我只使用了所有数据的一小部分。这会对结果产生任何偏差吗?谢谢!

最佳答案

是的。根据偏差的定义,使用较小的集合意味着您对决定训练的任何部分都会有更高的偏差。如果您从较大的数据集中随机选择小样本,这种偏差将大大减少。

如果您只使用一小部分数据,10 倍交叉验证没有多大意义。交叉验证的想法是将大型数据集分成多个部分,用其中的交替部分作为训练集和测试集进行训练,迭代直到找到所有交叉验证集的最佳解决方案。

如果您没有太多时间或计算能力,我的第一个建议是减少 10 倍的简历检查。这意味着您可以在相同的计算时间内包含更大部分的数据集,并在 Weka 中快速评估许多不同的模型,然后再决定哪个更有希望继续推进。

如果您可以选择,对于最终的数据运行,我强烈建议使用全套算法,但是当您决定使用哪种算法时,使用全套算法的一部分并不可怕。设置。

关于machine-learning - 不使用开发集时的偏差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18262209/

相关文章:

tensorflow - 如何在 LSTM 变分自动编码器中将潜在向量传递给解码器

python - sklearn.mixture.DPGMM : Unexpected results

algorithm - 如何建立电影推荐系统?

机器学习模型的API设计

python - Keras - model.predict_classes 给出了错误的标签

machine-learning - 基于 Keras 的神经网络未训练

python - Tensorflow Nan,我哪里错了?

python - 训练模型来预测简单的线性函数

Python 机器学习/数据科学项目结构

python - 在 IBM Watson 中部署笔记本