我有一个按日期索引的 pandas
数据框。让我们假设它是从 1 月 1 日到 1 月 30 日。我想将此数据集拆分为 X_train、X_test、y_train、y_test,但我不想混合日期,所以我希望将火车和测试样本除以某个日期(或索引)。我在努力
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
但是当我检查这些值时,我发现日期是混合的。我想将我的数据拆分为:
Jan-1 到 Jan-24
进行训练,Jan-25 到 Jan-30
进行测试(因为 test_size 是 0.2,所以 24 需要训练,6 需要测试)
我该怎么做?谢谢
最佳答案
你应该使用
X_train, X_test, y_train, y_test = train_test_split(X,Y, shuffle=False, test_size=0.2, stratify=None)
不要使用 random_state=None
它会占用 numpy.random
在here它提到使用 shuffle=False
和 stratify=None
关于python - Scikit train_test_split 按指数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53648699/