machine-learning - Logistic回归预测概率

标签 machine-learning scikit-learn multiclass-classification

我目前正在使用 scikit-learn 的 LogisticRegression 来解决多类分类问题。我决定使用 LogisticRegression,因为我读了几篇文章,将其描述为一种在返回的预测概率方面经过良好校准的算法。

对于分类器的每个结果,我检查其预测概率以及分类观察与训练集中具有相同决策类的其余示例之间的距离。

令我惊讶的是,对于某些结果,即使预测某个类别的置信度超过 90%,余弦相似性度量也表明给定的示例平均与同一类别的一组示例几乎正交在训练集中。

有人可以提供一些线索来解释为什么会观察到这种差异吗?

我预计,对于与同一类的其余观察结果相差很大的示例,LogisticRegression 算法将返回较低的预测概率。

最佳答案

逻辑回归/分类将提供关于决策边界的结果,但不能保证边界同一侧的点(即属于同一类)将具有较小的余弦距离(甚至较小的欧几里得距离) )。

考虑 x-y 平面上的点,其中 y=0 以下的所有点都属于一个类,而上面的所有点都属于另一类。点(-1000, 1)和(1000, 1)属于同一类,但它们之间的余弦距离相对较大。另一方面,点 (1000, 1) 和 (1000, -1) 属于不同的类,但余弦距离非常小。

关于machine-learning - Logistic回归预测概率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46594092/

相关文章:

python - 解释多类逻辑回归中的预测概率

python - 生成随机数以测试核密度估计

machine-learning - SVC 的网格搜索问题 - 如何排除故障?

python - 如何向量化 SVM 中的损失

python - 在python中实现SVM One-vs-all时出了点问题

python - 如何为 SVM One-Versus-All 绘制超平面?

python - 为什么XGBoost只支持二元分类

python-3.x - ValueError : bad input shape (37533, 3) fit() 方法中的梯度 boost 错误

scikit-learn - Gridsearch CV 在创建折叠之前是否会打乱数据?

python - 在 sklearn 的 Pipeline 中使用 LabelEncoder 给出 : fit_transform takes 2 positional arguments but 3 were given