python - Scikit train_test_split 按指数

我有一个按日期索引的 pandas 数据框。让我们假设它是从 1 月 1 日到 1 月 30 日。我想将此数据集拆分为 X_train、X_test、y_train、y_test，但我不想混合日期，所以我希望将火车和测试样本除以某个日期(或索引)。我在努力

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

但是当我检查这些值时，我发现日期是混合的。我想将我的数据拆分为:

Jan-1 到 Jan-24 进行训练，Jan-25 到 Jan-30 进行测试(因为 test_size 是 0.2，所以 24 需要训练，6 需要测试)

我该怎么做？谢谢

最佳答案

你应该使用

X_train, X_test, y_train, y_test = train_test_split(X,Y, shuffle=False, test_size=0.2, stratify=None)

不要使用 random_state=None 它会占用 numpy.random

在here它提到使用 shuffle=False 和 stratify=None

关于python - Scikit train_test_split 按指数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53648699/

相关文章：

python - 如何用Python确定拟合参数的不确定性？