machine-learning - Logistic回归预测概率

我目前正在使用 scikit-learn 的 LogisticRegression 来解决多类分类问题。我决定使用 LogisticRegression，因为我读了几篇文章，将其描述为一种在返回的预测概率方面经过良好校准的算法。

对于分类器的每个结果，我检查其预测概率以及分类观察与训练集中具有相同决策类的其余示例之间的距离。

令我惊讶的是，对于某些结果，即使预测某个类别的置信度超过 90%，余弦相似性度量也表明给定的示例平均与同一类别的一组示例几乎正交在训练集中。

有人可以提供一些线索来解释为什么会观察到这种差异吗？

我预计，对于与同一类的其余观察结果相差很大的示例，LogisticRegression 算法将返回较低的预测概率。

最佳答案

逻辑回归/分类将提供关于决策边界的结果，但不能保证边界同一侧的点(即属于同一类)将具有较小的余弦距离(甚至较小的欧几里得距离) )。

考虑 x-y 平面上的点，其中 y=0 以下的所有点都属于一个类，而上面的所有点都属于另一类。点(-1000, 1)和(1000, 1)属于同一类，但它们之间的余弦距离相对较大。另一方面，点 (1000, 1) 和 (1000, -1) 属于不同的类，但余弦距离非常小。

关于machine-learning - Logistic回归预测概率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46594092/

相关文章：

python - 解释多类逻辑回归中的预测概率