machine-learning - 逻辑回归可以处理不平衡的数据吗?

标签 machine-learning logistic-regression

我正在学习机器学习,到目前为止,我已经使用逻辑回归来解决平衡数据的问题,例如情感分析,其中两个类别的训练数据数量相同(+ve,-ve)。

现在,我正在研究命名实体识别问题,我必须识别文本中的人名。为此,我的数据很稀疏,不到 10% 的训练数据是+ve情况(实际上是一个人标签),重置是负情况(不是一个人标签)。所以我的训练数据存在很大的不平衡。

监督学习算法在这种情况下会起作用吗?

最佳答案

是的;只要双方都有足够的数据来正确定义类,它就可以正常工作。您需要的数量取决于您使用的分类方法。事实上,我有几个运行良好的 SVM 模型,只用 +ve 数据进行训练——根本没有 -ve 数据!

对于大多数方法,不平衡的输入表明您可以丢弃 80% 的案例,这些案例在定义边界方面没有发挥太多作用。其中 80% 会因方法而异。例如,如果您删除 80% 的均匀间隔(随机可能会起作用),谱聚类和 k 均值将足够有效。如果仅保留最接近边界的 10%,线性 SVM 就会起作用。朴素贝叶斯和随机森林也可以在随机 80% 去除的情况下很好地工作,尽管任何通过连续细化工作的方法可能会收敛得更慢一些。

关于machine-learning - 逻辑回归可以处理不平衡的数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33616265/

相关文章:

python - 无法修复 ValueError ("endog must be in the unit interval")

r - 我是按原样保留具有数字类别的特征还是创建虚拟变量?

machine-learning - 在训练和测试数据分割之前或之后对数据进行归一化?

python - 绘制具有 7 个特征的 Scikit Logistic 回归的决策边界

python - KerasClassifier 无法拟合模型,尽管一切正常

machine-learning - 使用梯度下降实现 SARSA

python - 使用 Iris 数据集在 Python 中重现 LASSO/Logistic 回归结果

python-3.x - 在必要的预处理后,如何使用 nltk 文本分析库预测特定文本或文本组

python - 使用、准备用于回归的词袋数据

r - 插入号训练方法提示有些地方不对劲;缺少所有RMSE指标值