machine-learning - SGD 型号 "overconfidence"

标签 machine-learning classification mahout

我正在使用 Apache Mahout 解决二进制分类问题。我使用的算法是 OnlineLogisticRegression，我目前拥有的模型强烈倾向于产生 1 或 0 的预测，没有任何中间值。

请提出一种调整算法的方法，使其在预测中产生更多的中间值。

提前致谢!

最佳答案

分类器的测试错误率是多少？如果它接近于零，那么自信就是一个特性，而不是一个错误。

如果测试错误率很高(或者至少不低)，那么分类器可能会过度拟合训练集:测量训练误差和测试误差之间的差异。在这种情况下，按照 rrenaud 的建议增加正则化可能会有所帮助。

如果您的分类器没有过度拟合，则概率校准可能存在问题。逻辑回归模型(例如使用 logit 链接函数)应该产生足够好的概率校准(如果问题近似线性可分并且标签噪声不太大)。您可以使用绘图检查概率的校准，如 this paper 中所述。。如果这确实是一个校准问题，那么实现基于 Platt 缩放或等渗回归的自定义校准可能有助于解决该问题。

关于machine-learning - SGD 型号 "overconfidence"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14820458/

上一篇：machine-learning - 如何对抗 KMeans 聚类引起的随机性

下一篇：machine-learning - 一类 SVM 概率估计以及一类 SVM 与聚类有何不同

相关文章：

python - sigmoid 函数在神经网络中的作用导数

machine-learning - 使用 Theano 进行卷积时出现内存不足错误

machine-learning - 在 weka 中测试没有类标签的单个实例

python - BaggingClassifier 在不同的执行中给出相同的结果

image - 使用 Matlab 进行男性/女性分类 - 关于寻找平均图像

matlab - Java中的分布式矩阵乘法

numpy - 为什么SVM中支持向量的数量没有变化？

machine-learning - 如何使用 OpenNLP 根据文本类别标记文本？

hadoop - 使用 mahout 和 hadoop

java - 使用Maven导入mahout时出错