我有一个二元分类问题,标签 0 和 1(少数)存在巨大不平衡。由于测试集带有标签 1 的行太少,因此我将训练测试设置为至少 70-30 或 60-40,因此仍然有重要的观察结果。由于我没有过多地衡量准确率(由于类别不平衡),而是更多地衡量精确召回率,因此这一点尤其重要,因为真实阳性率的一些差异非常显着。
Python/sklearn 中是否有 KFold(或交叉验证方法)的变体,其中我选择 K = 5,并将分割设置为 60-40?就像下图所示:
最佳答案
您需要分层抽样来处理不平衡问题。 这是 sklearn 为您做的 URL:结合 Kfold 和分层采样/分割
http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html
关于python - K 重 CV 的变体,其中 size(test_set) > N/K,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52521475/