我的数据集不平衡,正面评价 (90%) 多于负面评价 (10%),我应该遵循以下选项。
- 在 GridsearchCV(训练和 CV)和 Logistic 算法(训练和测试)中使用
class_weight='balanced'
- 将数据拆分为训练集、CV 和测试集,然后通过采用多数类(我的情况是 +ve 类)对少数类进行过采样。从而两个类达到平衡
- 欠采样 - 由于信息丢失而未考虑。
最佳答案
不幸的是,对于自然语言数据,没有很多好的选择。 -一种快速的方法确实是对正类进行欠采样并对负类进行过采样,以带来更多平衡。 - 更复杂的方法是使用 GANs to create more negative examples 。
关于machine-learning - 如何在不平衡的数据集上执行类平衡,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55631410/