我一直在自学 Weka,并学会了如何构建模型并从中进行预测(使用 CLI 进行预测)。
当我对先前构建的模型的数据集进行预测时,我得到一个“预测”列,也称为每个预测实例的预测置信度。
我知道置信度百分比是什么意思,但我所有的预测不都应该是我的 Weka 模型的准确性吗?
也就是说,如果我有一个准确率为 90% 的 J48 决策树分类器,那么使用该模型的每个分类实例不应该具有 90% 的预测置信度吗?
有人知道这个百分比置信度是如何计算的,或者在告诉其他人我的模型时我应该如何阅读错误预测和模型准确性?谢谢
最佳答案
基本上,当决策树在数据集上进行训练时,您通常希望(或者由于缺少功能必须)在它在每个训练实例上过度拟合之前停止它。发生这种情况时,树中的叶节点将有多个训练样本。通常,此时训练标签仍会混合(并非所有正类,也并非所有负类。)
置信度是对该训练实例的树下降到叶子时训练标签的一致性程度的某种衡量。
编辑:请注意,这也用于以干净且公正的方式处理缺失的功能(属性)。
See here for a brief definition of this.
另请参阅 Quinlan 在决策树方面的一些工作。特别是他在 C4.5 方面的工作
另外:“我知道置信度百分比是什么意思,但我所有的预测不都应该是我的 Weka 模型的准确性吗?”
不,这不是真的,某些训练样本比其他样本更容易分类,这些分数反射(reflect)了这一点。
关于machine-learning - Weka 预测(置信百分比)——这是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11084248/