machine-learning - 准确率和召回率什么时候成反比?

标签 machine-learning classification data-mining information-retrieval

我正在阅读有关机器学习中的精确度和召回率的内容。

问题 1:精确率和召回率何时成反比?也就是说,什么时候会出现可以提高准确率但以降低召回率为代价的情况,反之亦然? Wikipedia article状态:

Often, there is an inverse relationship between precision and recall, where it is possible to increase one at the cost of reducing the other. Brain surgery provides an obvious example of the tradeoff.

但是,我已经看到研究实验结果,其中精确度和召回率同时提高(例如,当您使用不同或更多功能时)。

什么情况下存在反比关系?

问题 2:我熟悉两个领域的精确度和召回率概念:信息检索(例如“从 1MM 页面语料库中返回 100 个最相关的页面”)和二元分类(例如“将这 100 名患者中的每一位都分类为患有该疾病或未患有该疾病”)。准确率和召回率在这两个领域或其中一个领域中是否成反比?

最佳答案

只有当系统中有一些参数可以改变以获得更多/更少的结果时,反比关系才成立。那么有一个直接的关系:你降低阈值,得到更多的结果,其中有一些是TP,一些是FP。实际上,这并不总是意味着精确率或召回率会同时上升和下降 - 真正的关系可以使用ROC curve来映射。 。对于 Q2,同样,在这两个任务中,精确度和召回率不一定成反比。

那么,如何提高召回率或精确率,同时又不会影响对方呢?通常,通过改进算法或模型。 IE。当您仅更改给定模型的参数时,通常会保持反比关系,尽管您应该注意它通常也是非线性的。但是,例如,如果您向模型添加更多描述性特征,则可以同时增加这两个指标。

关于machine-learning - 准确率和召回率什么时候成反比?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25297216/

相关文章:

python - 凯拉斯/ tensorflow : Weird dropout behaviour

machine-learning - LDA作为分区之前或之后的降维

database-design - 无限共享和唯一项目分类的数据库设计模型

machine-learning - 在MOA中使用CSV文件作为流资源

python - sklearn : Get Distance from Point to Nearest Cluster

java - 如何使用 WordNet 或与 wordnet 相关的实现基于类别的文本标记?

python-3.x - tensorflow 中批处理中每个项目的 LSTM 初始状态

algorithm - 基于Apriori算法的频繁项集与基于项的推荐

machine-learning - 麻省理工学院深度流量挑战赛的奖励功能?

python - 分类报告 - 精度和 F 分数定义不明确