我已经运行了分类和回归树(trees.REPTree) 根据 housing.arff 数据(比例为 66%)。这就是结果。
REPTree
============
RM < 6.84
| LSTAT < 14.8
| | LSTAT < 9.75 : 25.15 (88/21.02) [47/55.38]
叶子上的值(25.15、88/21.02 等)意味着什么?
最佳答案
我尝试对答案进行逆向工程,如果我得到更明确的信息,我会更新它。
我在丰田卡罗拉数据集上运行了一棵非常小的树(预测二手车的价格)。这是树:
Age_08_04 < 32.5
| Weight < 1297.5 : 18033.54 (121/6009564.12) [59/6768951.55]
| Weight >= 1297.5 : 27945.83 (3/10945416.67) [3/22217291.67]
Age_08_04 >= 32.5
| Age_08_04 < 57.5 : 11363.26 (296/2827594.01) [144/2999066.05]
| Age_08_04 >= 57.5 : 8636.94 (537/1487597.91) [273/1821232.47]
叶节点中的第一个数字(18033、27945、11363、8636)是这些汽车的预测价格。 第二个和第四个数字相加就是实例数: 121 + 59 + 3 + 3 ...+273 = 1436,整个集合中的实例数。 第二个数字加起来为 957(实例的三分之二),第四个数字加起来为 479(实例的三分之一)。
Witten 等人的书(数据挖掘:实用机器学习工具和技术,第 4 版)第 6.1 节(决策树:错误估计错误率)注释
"One way of coming up with an error estimate is the standard verification technique: hold back some of the data originally given and use it as an independent test set to estimate the error at each node. This is called reduced-error pruning." (Kindle location 5403)
所以我认为它对数据进行了 2/3、1/3 的分割,尽管我们还进行了 10 倍交叉验证。
第三个和第五个数字(/之后)似乎是 MSE。进行一些代数计算,第五个数字的加权平均值与交叉验证摘要中报告的均方根误差和相对平方根误差一致。 (不太准确,但我不认为我会期望如此)
同样,如果我找到更多信息,我将更新此答案 - 并且我很高兴从其他人那里获得更明确的信息。
关于Weka - 分类和回归树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41867090/