r - 训练、测试、验证和集成数据、混合数据和测试数据之间有什么区别?

标签 r machine-learning ensemble-learning train-test-split

帮助我理解这两个片段之间的区别

1)

set.seed(123)
ss <- sample(1:3,size=nrow(dataframe),replace=TRUE,prob=c(0.6,0.2,0.2))
train <- mtcars[ss==1,]
test <- mtcars[ss==2,]
cvr <- mtcars[ss==3,]

当我尝试集成方法时

2)

# shuffle and split the data into three parts
set.seed(1234)
finaltrain <- finaltrain[sample(nrow(finaltrain)),]
split <- floor(nrow(finaltrain)/3)
ensembleData <- finaltrain[0:split,]
blenderData <- finaltrain[(split+1):(split*2),]
testingData <- finaltrain[(split*2+1):nrow(finaltrain),]

我的问题是,在整合时我做了什么不同的事情?我是初学者帮助我理解这一点。

最佳答案

训练数据集 used 与模型类似,用于训练模型的数据集(神经网络的情况下权重也有偏差) 然后是这个数据的学习模型。

如果您使用的编程语言是 python,通常会以 .csv 或 .txt 格式插入训练数据集。 数据集也可以使用形式矩阵,但编码的改变要一一改变。

验证数据集 用于对训练数据集上的合适模型进行公正评估的样本数据。 设置验证用于评估给定的模型。

测试数据集 通常使用哪些测试集来评估竞争模型。 例如在Kaggle比赛中确定获胜者,验证集与训练集同时发布,而测试集实际上只有在比赛结束时才发布。 这就是模型在测试集上的结果来决定获胜者。 //测试集通常充满了仔细收集的数据,涵盖模型将遇到的各种类。

关于r - 训练、测试、验证和集成数据、混合数据和测试数据之间有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50065571/

相关文章:

python - 使二进制堆叠示例适应多类

python - sklearn 集成和树中连续变量的分箱

循环中的 rbind data.frame 输出

r - 在 R 中的一个值上重复数据帧,选择其他列的任何值

python - tf.nn.rnn_cell.MultiRNNCell 创建变量形状不匹配?

matlab - 使用训练图像的可变大小的 pig 描述符训练 SVM (MATLAB)

r - 使用小于2个非NA值的svyquantile()

用于 "save link as"的 Rselenium 命令

python - 将非监督学习模型传递给 cross_val_score

python - RandomForest 高 OOB 分数与低 KFold 验证分数