machine-learning - 如何在不平衡的数据集上执行类平衡

标签 machine-learning nlp

我的数据集不平衡,正面评价 (90%) 多于负面评价 (10%),我应该遵循以下选项。

  1. 在 GridsearchCV(训练和 CV)和 Logistic 算法(训练和测试)中使用 class_weight='balanced'
  2. 将数据拆分为训练集、CV 和测试集,然后通过采用多数类(我的情况是 +ve 类)对少数类进行过采样。从而两个类达到平衡
  3. 欠采样 - 由于信息丢失而未考虑。

最佳答案

不幸的是,对于自然语言数据,没有很多好的选择。 -一种快速的方法确实是对正类进行欠采样并对负类进行过采样,以带来更多平衡。 - 更复杂的方法是使用 GANs to create more negative examples

关于machine-learning - 如何在不平衡的数据集上执行类平衡,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55631410/

相关文章:

python-3.x - 如何从 gensim 上的 w2v 获取 tf-id

python - scikit-learn 中的sample_weight 与class_weight 相比如何?

python - 即使调整了密度、激活和层数后,损失仍然卡住并且准确率低于 0.01

machine-learning - 安德鲁练习的机器学习类(class)可以在本地运行但无法提交?

python - 删除文本中除 "\n"和 "/"之外的所有特殊字符

Javascript 正则表达式从句子中检索变量

Python将多个单词列表转换为单个单词

nlp - Wordnet Synset 偏移量?如何比较单词

algorithm - 基于输入文本格式的分类器

python - 深度学习: save and load a universal machine model through different libraries