到目前为止,我只有一个数据集 (df.csv)。到目前为止,我使用的验证大小为 20% 和 .train_test_split
对于正常的回归模型。
array = df.values
X = array[:,0:26]
Y = array[:,26]
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation =
cross_validation.train_test_split(X, Y,
test_size=validation_size, random_state=seed)
num_folds = 10
num_instances = len(X_train)
seed = 7
scoring = 'mean_squared_error'
当我有三个独立的数据集(train.csv/test.csv/ground_truth.csv)时,我该如何处理它?当然,首先我使用train.csv,然后是test.csv,最后是ground_truth。但是我应该如何在我的模型中实现这些不同的数据集?
最佳答案
当您执行交叉验证时,训练数据和测试数据本质上是相同的数据集,但以不同的方式分割以防止过度拟合。折叠次数表示该组分割的不同方式。
例如,5折交叉验证将训练集分成5份,每次使用其中4份用于培训,1份用于测试。因此,对于您的情况,您有以下选择:
要么仅在训练集上执行交叉验证,然后检查测试集和地面实况(仅在训练集上进行拟合,因此如果正确完成,测试和地面实况的准确性应该相似)或组合对更大且可能更具代表性的数据集进行训练和测试,然后检查基本事实。
关于python - 如何在机器学习模型中使用 train.csv 、 test.csv 和 ground_truth.csv ? (交叉验证/Python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39962836/