machine-learning - 逻辑回归可以处理不平衡的数据吗？

我正在学习机器学习，到目前为止，我已经使用逻辑回归来解决平衡数据的问题，例如情感分析，其中两个类别的训练数据数量相同(+ve，-ve)。

现在，我正在研究命名实体识别问题，我必须识别文本中的人名。为此，我的数据很稀疏，不到 10% 的训练数据是+ve情况(实际上是一个人标签)，重置是负情况(不是一个人标签)。所以我的训练数据存在很大的不平衡。

监督学习算法在这种情况下会起作用吗？

最佳答案

是的；只要双方都有足够的数据来正确定义类，它就可以正常工作。您需要的数量取决于您使用的分类方法。事实上，我有几个运行良好的 SVM 模型，只用 +ve 数据进行训练——根本没有 -ve 数据!

对于大多数方法，不平衡的输入表明您可以丢弃 80% 的案例，这些案例在定义边界方面没有发挥太多作用。其中 80% 会因方法而异。例如，如果您删除 80% 的均匀间隔(随机可能会起作用)，谱聚类和 k 均值将足够有效。如果仅保留最接近边界的 10%，线性 SVM 就会起作用。朴素贝叶斯和随机森林也可以在随机 80% 去除的情况下很好地工作，尽管任何通过连续细化工作的方法可能会收敛得更慢一些。

关于machine-learning - 逻辑回归可以处理不平衡的数据吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33616265/

上一篇：scala - Spark mllib LinearRegression 奇怪的结果

下一篇：machine-learning - PyBrain buildNetwork 与 FeedForwardNetwork

r - 我是按原样保留具有数字类别的特征还是创建虚拟变量？

machine-learning - 在训练和测试数据分割之前或之后对数据进行归一化？

python - 绘制具有 7 个特征的 Scikit Logistic 回归的决策边界

python - KerasClassifier 无法拟合模型，尽管一切正常

machine-learning - 使用梯度下降实现 SARSA

python - 使用 Iris 数据集在 Python 中重现 LASSO/Logistic 回归结果

python-3.x - 在必要的预处理后，如何使用 nltk 文本分析库预测特定文本或文本组

python - 使用、准备用于回归的词袋数据

r - 插入号训练方法提示有些地方不对劲；缺少所有RMSE指标值