python - 如何使用 imblearn 和 SMOTE 生成分类合成样本?

标签 python python-3.x scikit-learn imblearn

我希望使用 imblearn 的 SMOTE 为机器学习算法生成合成样本。我有一些分类特征,我已使用 sklearn preprocessing.LabelEncoder 将其转换为整数。

我遇到的问题是,当我使用 smote 生成合成数据时,数据点变成 float 而不是分类数据所需的整数。

from collections import Counter
from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.decomposition import PCA
import numpy as np
from sklearn import preprocessing

if __name__ == '__main__':
    df = pd.read_csv('resample.csv')
    y = df['Result']
    accounts = df['Account Number']
    df.drop('Result',axis=1,inplace=True)
    df.drop('Account Number', axis=1, inplace=True)

    df.fillna(value=0, inplace=True)

    le = preprocessing.LabelEncoder()
    le.fit(df['Distribution Partner'])
    print(le.classes_)
    df['Distribution Partner'] = le.transform(df['Distribution Partner'])
    print('Original dataset shape {}'.format(Counter(y)))
    sm = SMOTE(kind='regular')
    X_resampled, y_resampled = sm.fit_sample(df, y)
    np.savetxt('output.csv', X_resampled, delimiter=",")
    print('New dataset shape {}'.format(Counter(y_resampled)))

无论如何我可以让 SMOTE 生成合成样本,但只能使用值 0、1、2 等而不是 0.5、1.23、2.004?

最佳答案

非常简单:使用 SMOTENC 而不是 SMOTE。 SMOTENC 可以处理分类和非分类特征。

示例代码:

from imblearn.over_sampling import SMOTENC`
obj = SMOTENC(categorical_features = [1,4])
ovsersampled_features, ovsersampled_target = obj.fit_sample(Features, Target)

[1,4] = 数据集分类列的索引。

*索引从0开始。

关于python - 如何使用 imblearn 和 SMOTE 生成分类合成样本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40580658/

相关文章:

python - 在Python 3.6中验证JSON,其中内部blob的数量是可变的?

python - 高斯过程回归增量学习

python - 给定距离矩阵的Python中的最近邻居

python - 基于边缘宽度的 matplotlib 图例

python - Pandas 重新采样不返回任何内容

python - 更快地渲染具有大型管线的 mayavi 场景

python - 从排序列表创建字典

python - 求解变量子集的多元方程

python - 缺少准确度数据的分类报告输出

python - win32file.DeviceIoControl 上的结构解包