我正在学习机器学习,到目前为止,我已经使用逻辑回归来解决平衡数据的问题,例如情感分析,其中两个类别的训练数据数量相同(+ve,-ve)。
现在,我正在研究命名实体识别问题,我必须识别文本中的人名。为此,我的数据很稀疏,不到 10% 的训练数据是+ve情况(实际上是一个人标签),重置是负情况(不是一个人标签)。所以我的训练数据存在很大的不平衡。
监督学习算法在这种情况下会起作用吗?
最佳答案
是的;只要双方都有足够的数据来正确定义类,它就可以正常工作。您需要的数量取决于您使用的分类方法。事实上,我有几个运行良好的 SVM 模型,只用 +ve 数据进行训练——根本没有 -ve 数据!
对于大多数方法,不平衡的输入表明您可以丢弃 80% 的案例,这些案例在定义边界方面没有发挥太多作用。其中 80% 会因方法而异。例如,如果您删除 80% 的均匀间隔(随机可能会起作用),谱聚类和 k 均值将足够有效。如果仅保留最接近边界的 10%,线性 SVM 就会起作用。朴素贝叶斯和随机森林也可以在随机 80% 去除的情况下很好地工作,尽管任何通过连续细化工作的方法可能会收敛得更慢一些。
关于machine-learning - 逻辑回归可以处理不平衡的数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33616265/