我想对一些大数据重新采样(类大小:8mio vs 2700) 我希望通过对 2 类进行过采样和对 1 类进行欠采样来获得每个 50.000 个样本。 imblearn 似乎提供了过采样和欠采样的组合,但我不明白它是如何工作的。
from collections import Counter
from imblearn.over_sampling import SMOTENC
from imblearn.under_sampling import TomekLinks
from imblearn.combine import SMOTETomek
smt = SMOTETomek(random_state=1)
X_resamp, y_resamp = smt.fit_resample(data_all[29000:30000], labels_all[29000:30000])
之前的数据看起来像
>>Counter(labels_all[29000:30000])
>>Counter({0: 968, 9: 32})
以及之后
>>Counter(y_resamp)
>>Counter({0: 968, 9: 968})
正如我所期望或希望的那样
>>Counter(y_resamp)
>>Counter({0: 100, 9: 100})
最佳答案
看来您只有 32 个类 9
的记录,因此它对该类进行了过度采样,并将其数据记录与类 0
的数据记录对齐,因此 9:第968章
您正在谈论将数据集减少到 100 条记录,您可以从 X
和 Y
中为每个类随机采样 100 条记录(相同的 100 条记录) )或取前 100 个,如 y_resamp[:100]
关于python - 如何结合使用过采样和欠采样?学习不平衡,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58352912/