machine-learning - 如何在不平衡的数据集上执行类平衡

标签 machine-learning nlp

我的数据集不平衡，正面评价 (90%) 多于负面评价 (10%)，我应该遵循以下选项。

在 GridsearchCV(训练和 CV)和 Logistic 算法(训练和测试)中使用 class_weight='balanced'
将数据拆分为训练集、CV 和测试集，然后通过采用多数类(我的情况是 +ve 类)对少数类进行过采样。从而两个类达到平衡
欠采样 - 由于信息丢失而未考虑。

最佳答案

不幸的是，对于自然语言数据，没有很多好的选择。 -一种快速的方法确实是对正类进行欠采样并对负类进行过采样，以带来更多平衡。 - 更复杂的方法是使用 GANs to create more negative examples 。

关于machine-learning - 如何在不平衡的数据集上执行类平衡，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55631410/

上一篇：python - 如何在 scikit-learn 随机森林的 graphviz-graph 中找到一个类？

下一篇：python - 使用 Knn 分类器时出现无效形状错误

相关文章：

python-3.x - 如何从 gensim 上的 w2v 获取 tf-id

python - scikit-learn 中的sample_weight 与class_weight 相比如何？

python - 即使调整了密度、激活和层数后，损失仍然卡住并且准确率低于 0.01

machine-learning - 安德鲁练习的机器学习类(class)可以在本地运行但无法提交？

python - 删除文本中除 "\n"和 "/"之外的所有特殊字符

Javascript 正则表达式从句子中检索变量

Python将多个单词列表转换为单个单词

nlp - Wordnet Synset 偏移量？如何比较单词

algorithm - 基于输入文本格式的分类器

python - 深度学习: save and load a universal machine model through different libraries

©2024 IT工具网联系我们