data-mining - Weka 中的回归树森林

我正在使用 Weka，并且想使用随机森林执行回归。具体来说，我有一个数据集:

Feature1,Feature2,...,FeatureN,Class
1.0,X,...,1.4,Good
1.2,Y,...,1.5,Good
1.2,F,...,1.6,Bad
1.1,R,...,1.5,Great
0.9,J,...,1.1,Horrible
0.5,K,...,1.5,Terrific
.
.
.

我想学习给定特征向量的类的概率分布，而不是学习预测最可能的类。我的直觉是，在 Weka 中仅使用随机森林模型是不合适的，因为它会尝试最小化其绝对误差(最大似然)而不是平方误差(条件概率分布)。这种直觉对吗？如果我想执行回归而不是分类，是否有更好的模型可以使用？

编辑:我现在实际上在想，实际上这可能不是问题。据推测，分类器正在学习条件概率 P(Class | Feature1,...,FeatureN)，最终的分类只是在 Class 中找到最大化该概率分布的 c。因此，随机森林分类器应该能够给出条件概率分布。我只是需要再考虑一下。如有错误，请指正。

最佳答案

如果您想明确预测每个类别的概率，则需要不同的输入数据。也就是说，您需要替换要预测的值。您需要 n 个数据集(针对 n 个不同的标签)以及每个唯一特征向量的聚合数据，而不是一个带有类标签的数据集。您的数据看起来像

Feature1,...,Good
1.0,...,0.5
0.3,...,1.0

和

Feature1,...,Bad
1.0,...,0.8
0.3,...,0.1

等等。您需要为每个类别学习一个模型，并在要分类的任何数据上单独运行它们。也就是说，对于每个标签，您学习一个模型来预测一个数字，该数字是在给定特征向量的情况下属于该类别的概率。

如果您不需要显式预测概率，请查看 Weka 中的贝叶斯分类器，它们在学习的模型中利用概率。

关于data-mining - Weka 中的回归树森林，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13275683/

data-mining - Weka 中的回归树森林

上一篇：ibm-mq - 许多 WMQ amqrmppa 进程

下一篇：couchdb - 使用 PHPillow 连接到 Cloudant (CouchDB)