python - 如何在机器学习模型中使用 train.csv 、 test.csv 和 ground_truth.csv ? (交叉验证/Python)

标签 python numpy machine-learning scipy cross-validation

到目前为止,我只有一个数据集 (df.csv)。到目前为止,我使用的验证大小为 20% 和 .train_test_split对于正常的回归模型。

array = df.values
X = array[:,0:26]
Y = array[:,26]
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation =
   cross_validation.train_test_split(X, Y,
   test_size=validation_size, random_state=seed)
num_folds = 10
num_instances = len(X_train)
seed = 7
scoring = 'mean_squared_error'

当我有三个独立的数据集(train.csv/test.csv/ground_truth.csv)时,我该如何处理它?当然,首先我使用train.csv,然后是test.csv,最后是ground_truth。但是我应该如何在我的模型中实现这些不同的数据集?

最佳答案

当您执行交叉验证时,训练数据和测试数据本质上是相同的数据集,但以不同的方式分割以防止过度拟合。折叠次数表示该组分割的不同方式。

例如,5折交叉验证将训练集分成5份,每次使用其中4份用于培训,1份用于测试。因此,对于您的情况,您有以下选择:

要么仅在训练集上执行交叉验证,然后检查测试集和地面实况(仅在训练集上进行拟合,因此如果正确完成,测试和地面实况的准确性应该相似)或组合对更大且可能更具代表性的数据集进行训练和测试,然后检查基本事实。

关于python - 如何在机器学习模型中使用 train.csv 、 test.csv 和 ground_truth.csv ? (交叉验证/Python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39962836/

相关文章:

python - 如何从 Python Celery 中的另一个任务触发任务?

python - 按 bin 面积标准化 histogram2d

python - Pandas 汇总统计的经济状况调查有何不同?

machine-learning - MNIST教程中是如何预处理MNIST数据集的?

python - 在python中,如何将两个列表列表相互划分?

python - 为什么使用属性而不是方法可以显着提高 Python 速度

python - 在 Python 中将属性添加到类时执行方法

python - 如何解决由FFT驱动的微分程序中的移位和缩放错误?

python - sklearn - 对类的子集进行精确评分的交叉验证

machine-learning - 重量衰减值增加显示最差性能