我有一个房价预测数据集。我必须将数据集拆分为 train
和 test
。
我想知道是否可以使用 numpy
或 scipy
来做到这一点?
我目前无法使用 scikit learn 。
最佳答案
我知道你的问题只是用numpy
或scipy
进行train_test_split,但实际上有一种非常简单的方法可以用Pandas来做到这一点:
import pandas as pd
# Shuffle your dataset
shuffle_df = df.sample(frac=1)
# Define a size for your train set
train_size = int(0.7 * len(df))
# Split your dataset
train_set = shuffle_df[:train_size]
test_set = shuffle_df[train_size:]
适合那些想要快速、简单的解决方案的人。
关于python - 不使用 scikit learn 训练测试分割,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47202182/