使用 sklearn ,我希望在样本数据集中有 3 个分割(即 n_splits = 3),并且训练/测试比率为 70:30。我可以将集合分成 3 部分,但无法定义测试大小(类似于 train_test_split 方法)。有没有办法在 StratifiedKFold 中定义测试样本大小?
from sklearn.model_selection import StratifiedKFold as SKF
skf = SKF(n_splits=3)
skf.get_n_splits(X, y)
for train_index, test_index in skf.split(X, y):
# Loops over 3 iterations to have Train test stratified split
X_train, X_test = X[train_index], X[test_index]
y_train, y_test = y[train_index], y[test_index]
最佳答案
StratifiedKFold
根据定义进行 K 折分割。也就是说,返回的迭代器将产生 (K-1
) 组用于训练,而 1
组用于测试。 K
由 n_splits
控制,因此,它确实创建 n_samples/K
组,并使用 K-1 的所有组合
用于训练/测试。引用维基百科或google K-fold cross-validation有关它的更多信息。
简而言之,测试集的大小将为1/K
(即1/n_splits
),因此您可以调整该参数来控制测试大小(例如,n_splits=3
将进行测试拆分,其大小为数据的 1/3 = 33%
)。但是,StratifiedKFold
将迭代 K
组 K-1
,并且可能不是您想要的。
话虽如此,您可能会对StratifiedShuffleSplit感兴趣。 ,它仅返回可配置的分割数量和训练/测试比率。如果您只想要一次分割,您可以调整 n_splits=1
并保留 test_size=0.3
(或您想要的任何比例)。
关于python-2.7 - 如何在Python中给出分层kfold抽样的测试大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45500915/