python - cross_val_score 是采用顺序样本还是随机样本?

标签 python machine-learning scikit-learn cross-validation

在此: cross_val_score(GaussianNB(),特征,目标,cv=10)

我们是将数据随机分成 10 个还是按顺序进行?

最佳答案

这取决于您在 cv 参数中指定的内容。

如果自变量是二元或多类,它将使用 StratifiedKFold,否则它将使用 KFold。您还可以通过指定函数(sklearn 或其他)来覆盖这些选项来执行分割。

KFold 函数会将数据划分为连续的折叠。如果你想让它进行随机分割,你可以将shuffle参数设置为True。如果你想修复随机洗牌,你可以为 random_state 设置一个值。如果不这样做,它将采用随机值,并且每次运行该函数时折叠都会不同。

对于 StratifiedKFold,它将分割数据,同时尝试在每次分割中保持因变量的类比例相同。因此,每次调用该函数时都可能会发生细微的变化。即默认情况下它不会是连续的。

关于python - cross_val_score 是采用顺序样本还是随机样本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47431661/

相关文章:

python - 去除点和线等图像噪声

python - 这个字符串是如何在 python 中格式化的

python - 如何在 python 中 "with open"文件列表并获取它们的句柄?

python - 如何对未标记的数据进行分类?

python - scikit 学习决策树模型评估

python - curve_fit 和 scipy.odr 的比较 - 绝对西格玛

python - TensorFlow:SparseSoftmaxCrossEntropyWithLogits 错误?

python - 为什么 sklearn LatentDirichletAllocation 的 fit 和 partial_fit 返回不同的结果?

python - 访问随机森林模型中单个树的底层 (tree_) 对象(Python、scikit-learn)

python - 对于小数据集中的非常大的值,梯度下降不会收敛