我正在开展一项研究,我想提出一种方法,拒绝对测试数据的某些恒定部分进行分类(例如 20%,五分之一的分类可以由算法)。我们的想法是拥有一种算法,可以有效地选择哪些分类最有可能是错误的,并拒绝回答它们(以提高整体准确性)。
我想知道是否有任何通用的机器学习方法(独立于使用的分类器)来实现这一点?
任何答案都会有帮助,谢谢。
最佳答案
逻辑回归分类器将输出示例属于正类别或负类别的概率。在这种情况下,设置一个阈值来将示例标记为“未知”是可行的。例如,任何返回 <.6 正或负概率的内容都可以标记为未知。
正如另一位发帖者所建议的,另一种方法是将问题视为排名问题。线性分类器(如支持向量机和逻辑回归)输出示例与分离超平面的距离。您可以使用此距离的绝对值对示例进行排名,然后将排名最低(最接近分离超平面)的 20% 的测试示例分类为未知。
关于machine-learning - 分类器可以拒绝对 x% 的测试数据进行分类? (以提高精度),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11252159/