machine-learning - 有偏差的初始数据集主动学习

标签 machine-learning statistics

选择有偏差的初始(种子)数据集是否会影响使用主动学习构建的机器的训练和准确性?

最佳答案

有可能。假设种子数据样本存在严重偏差,并且模型没有看到特定集群的任何示例。然后,在预测时,模型可能会将它们预测为属于其他某个类别,并且高度确定地执行此操作(即,它已经产生了严重的偏差)。因此,它不会觉得需要查询此类数据实例的标签,也不会学习它们。但是当我们稍后用真实标签测试模型的结果时,它会显示出较低的准确性,因为这些实际上是错误的预测。

话虽如此,我们也可能不希望种子数据集中的训练数据分布“完全均匀”,因为如果我们有大量异常值或人为错误导致的不正确标签,或者严重倾斜但可能性较小的数据集群,则可能会出现这种情况。这是不受欢迎的,它会妨碍模型。

一种解决方案可以是“主动清理”此类实例,或者,我们可以允许种子数据具有一定程度的故意偏差(可以是针对高密度集群或有影响力的标签或系综分歧或模型的不确定性)。然后,我们确保在基于模型结果的进一步决策过程中考虑到模型中引入的偏差。

关于machine-learning - 有偏差的初始数据集主动学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35394018/

相关文章:

machine-learning - 如何为不同的客户预测不同的标签

r - 试图从贝叶斯统计中复制数字而不流泪 : A sampling-resampling perspective, 但失败了

machine-learning - 为什么IS曲线以(0,0)开始?

python-2.7 - 在sklearn中使用datasets.fetch_mldata()时出现IO错误

machine-learning - 如何使用 Keras 计算预测不确定性?

machine-learning - 使用 mlr3pipeline 编码和缩放后无法通过 mlr3proba 训练数据集

python - pandas DataFrame 中的操作

python - 值错误: Found input variables with inconsistent numbers of samples: [100, 300]

matlab - MATLAB中的YouTube视频统计信息

python - Python 中的 Julia 映射切片功能等效