r - 随机森林中分割训练数据和测试数据的查询

标签 r machine-learning random-forest

我有一个包含 15 个变量和 4669 个观察值的数据框。

我正在使用随机森林进行建模。我的数据集的目标是预测特定产品是否会被客户接受。

所以,我的输出变量有"is"、“否”和“”因子。

我的问题是,我是否可以在随机森林中将这个“”预测为"is"或“否”?

示例数据如下所示

Outputvar <- c("Yes", "Yes", "No", "NO", "", "")
Inputvar1 <- c("M", "F", "F", "M", "F", "M")
Inputvar2 <- c("34","25","40","50","60","34")
data <- data.frame(cbind(Outputvar,Inputvar2,Inputvar1))

我是 R 新手,如果我的理解是错误的,那么有人可以解释我该怎么做吗?

编辑:这是我到目前为止尝试过的代码

library(RandomForest)
data$outvar <- factor(data$outputvar, exclude = NULL)
ind0 <- sample(2, nrow(data), replace = TRUE, prob = c(0.7,0.3))
train0 <- data[ind0==1, ]
test0 <-  data[ind0==2, ]
fit1 <- randomForest(outputvar1~., data=train0)
print(fit1)
plot(fit1)

编辑2: 号码:3536 是:1061 “”:72

最佳答案

My target from my data set is to predict is a particular product will be accepted by the customer or not.

so, my output variable has factors of "Yes", "No" and "".

嗯,。这里的实际上下文是:

你的输出变量只有两个因素,"is"和“否”;并且您的可用数据集的一部分没有结果值 (""),而您想要预测它。

My question is, Is it possible for me to predict this "" , as Yes or No in random Forest ?

原则上是的 - 这正是分类器(例如随机森林)的用途。一般来说,您需要仅使用结果(是/否)确实可用的样本来训练模型(训练集,您可以将其用作测试集的子集,以评估模型性能) ;之后,您可以在数据集的其余部分中使用 predict 来预测结果。

当然,这只是一个复合流程的 4 行总结,其中涉及许多步骤和子步骤,这里无法详分割析,但希望能给您一个(非常)高层次的问题 View (可以说,这就是您所要求的)。我对your other relevant question的回答应该也有用。

关于r - 随机森林中分割训练数据和测试数据的查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48903145/

相关文章:

r - 在字符串中搜索 unicode 值

r - 追加两个列表列表的列表

python - Theano/numpy 高级索引

scikit-learn - 当我从 Pipeline 中删除 RF 模型时,它会失去准确性

r - 带有 doSMP 和 foreach 的并行随机森林大大增加了内存使用量(在 Windows 上)

r - 插入符号上的 parRF 不适用于多个核心

r - 如何使用 R 在 pdf 中插入可点击链接

r - 复制每日期间的最后一个值

python - 是否有轻量级的 Python 模块来加载预装的 ML 模块并执行预测?

python - TensorFlow - 如何使用每个示例一次且仅一次评估所有测试集