python - 如何在机器学习模型中使用 train.csv 、 test.csv 和 ground_truth.csv ？ (交叉验证/Python)

标签 python numpy machine-learning scipy cross-validation

到目前为止，我只有一个数据集 (df.csv)。到目前为止，我使用的验证大小为 20% 和 .train_test_split对于正常的回归模型。

array = df.values
X = array[:,0:26]
Y = array[:,26]
validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation =
   cross_validation.train_test_split(X, Y,
   test_size=validation_size, random_state=seed)
num_folds = 10
num_instances = len(X_train)
seed = 7
scoring = 'mean_squared_error'

当我有三个独立的数据集(train.csv/test.csv/ground_truth.csv)时，我该如何处理它？当然，首先我使用train.csv，然后是test.csv，最后是ground_truth。但是我应该如何在我的模型中实现这些不同的数据集？

最佳答案

当您执行交叉验证时，训练数据和测试数据本质上是相同的数据集，但以不同的方式分割以防止过度拟合。折叠次数表示该组分割的不同方式。

例如，5折交叉验证将训练集分成5份，每次使用其中4份用于培训，1份用于测试。因此，对于您的情况，您有以下选择:

要么仅在训练集上执行交叉验证，然后检查测试集和地面实况(仅在训练集上进行拟合，因此如果正确完成，测试和地面实况的准确性应该相似)或组合对更大且可能更具代表性的数据集进行训练和测试，然后检查基本事实。

关于python - 如何在机器学习模型中使用 train.csv 、 test.csv 和 ground_truth.csv ？ (交叉验证/Python)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39962836/

上一篇：image-processing - 方差分析可以用来比较两个图像吗？

下一篇：javascript - 聚类位置数据忽略异常值

相关文章：

python - 如何从 Python Celery 中的另一个任务触发任务？

python - 按 bin 面积标准化 histogram2d

python - Pandas 汇总统计的经济状况调查有何不同？

machine-learning - MNIST教程中是如何预处理MNIST数据集的？

python - 在python中，如何将两个列表列表相互划分？

python - 为什么使用属性而不是方法可以显着提高 Python 速度

python - 在 Python 中将属性添加到类时执行方法

python - 如何解决由FFT驱动的微分程序中的移位和缩放错误？

python - sklearn - 对类的子集进行精确评分的交叉验证

machine-learning - 重量衰减值增加显示最差性能