data-mining - Weka 中的回归树森林

标签 data-mining classification weka regression random-forest

我正在使用 Weka,并且想使用随机森林执行回归。具体来说,我有一个数据集:

Feature1,Feature2,...,FeatureN,Class
1.0,X,...,1.4,Good
1.2,Y,...,1.5,Good
1.2,F,...,1.6,Bad
1.1,R,...,1.5,Great
0.9,J,...,1.1,Horrible
0.5,K,...,1.5,Terrific
.
.
.

我想学习给定特征向量的类的概率分布,而不是学习预测最可能的类。我的直觉是,在 Weka 中仅使用随机森林模型是不合适的,因为它会尝试最小化其绝对误差(最大似然)而不是平方误差(条件概率分布)。这种直觉对吗?如果我想执行回归而不是分类,是否有更好的模型可以使用?

编辑:我现在实际上在想,实际上这可能不是问题。据推测,分类器正在学习条件概率 P(Class | Feature1,...,FeatureN),最终的分类只是在 Class 中找到最大化该概率分布的 c。因此,随机森林分类器应该能够给出条件概率分布。我只是需要再考虑一下。如有错误,请指正。

最佳答案

如果您想明确预测每个类别的概率,则需要不同的输入数据。也就是说,您需要替换要预测的值。您需要 n 个数据集(针对 n 个不同的标签)以及每个唯一特征向量的聚合数据,而不是一个带有类标签的数据集。您的数据看起来像

Feature1,...,Good
1.0,...,0.5
0.3,...,1.0

Feature1,...,Bad
1.0,...,0.8
0.3,...,0.1

等等。您需要为每个类别学习一个模型,并在要分类的任何数据上单独运行它们。也就是说,对于每个标签,您学习一个模型来预测一个数字,该数字是在给定特征向量的情况下属于该类别的概率。

如果您不需要显式预测概率,请查看 Weka 中的贝叶斯分类器,它们在学习的模型中利用概率。

关于data-mining - Weka 中的回归树森林,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13275683/

相关文章:

python - 将概念上相似的文档聚类在一起?

ruby - 在正文中查找最常见短语的有效方法 AKA 热门话题

machine-learning - LogisticRegressionCV 错误地预测标签

machine-learning - WEKA - arff 格式的向量属性

scikit-learn - 如何在 scikit-learn 中缩放输入 DBSCAN

data-mining - 一个括号中的项目在顺序模式挖掘中代表什么

machine-learning - 为什么多标签分类(二元相关性)起作用?

r - 使用 naiveBayes (e1071) 进行分类不起作用($levels 返回 NULL)

java - 在 Java 中使用 WEKA 分类器模型对实时文本进行分类

java - 无法上传用于 WEKA 分析的 CSV 文件 - java