我想将数据集分成两部分,75% 用于训练,25% 用于测试。有两个类。 我有另一个数据集,其中只有一个类的一个实例,其余所有实例都属于第二类。 所以我不想随机分割。我想确保,如果一个类只有一个实例,那么它应该处于训练中。任何想法如何去做。我知道我必须选择索引,但我不知道如何选择。 现在,我正在这样做,选择前 75% 作为训练,剩下的作为测试
train_data = df[:int((len(df)+1)*.75)]
test_data = df[int(len(df)*.75+1):]
最佳答案
这可能会有所帮助:GroupKFold
。在那里找到 sklearn 文档:
http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html
关于python-3.x - 非随机地将数据拆分为训练和测试,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49564050/