python - 如何在 pandas 数据帧中使用单热编码有效地规范化列?

标签 python pandas normalization one-hot-encoding

显示了示例数据框的一列:

Fruit   FruitA  FruitB
Apple   Banana  Mango
Banana  Apple   Apple
Mango   Apple   Banana
Banana  Mango   Banana
Mango   Banana  Apple
Apple   Mango   Mango

我想在数据框 Fruit-AppleFruit-MangoFruit-Banana 中引入新的列,并使用 one-hot 编码它们分别存在的行。因此,所需的输出是:

Fruit   FruitA  FruitB  Fruit-Apple Fruit-Banana    Fruit-Mango
Apple   Banana  Mango   1           1           1
Banana  Apple   Apple   1           1           0
Mango   Apple   Banana  1           1           1
Banana  Mango   Banana  0           1           1
Mango   Banana  Apple   1           1           1
Apple   Mango   Mango   1           0           1

我的代码是:

for i in range(len(data)):
        if (data['Fruits'][i] == 'Apple' or data['FruitsA'][i] == 'Apple' or data['FruitsB'][i] == 'Apple'):
            data['Fruits-Apple'][i]=1
            data['Fruits-Banana'][i]=0
            data['Fruits-Mango'][i]=0
        elif (data['Fruits'][i] == 'Banana' or data['FruitsA'][i] == 'Banana' or data['FruitsB'][i] == 'Banana'):
            data['Fruits-Apple'][i]=0
            data['Fruits-Banana'][i]=1
            data['Fruits-Mango'][i]=0
        elif (data['Fruits'][i] == 'Mango' or data['FruitsA'][i] == 'Mango' or data['FruitsB'][i] == 'Mango'):
            data['Fruits-Apple'][i]=0
            data['Fruits-Banana'][i]=0
            data['Fruits-Mango'][i]=1

但我注意到,如果有很多类型的“水果”,运行这段代码所花费的时间会急剧增加。在我的实际数据中,只有 1074 行,而我试图用 one-hot 编码“规范化”的列有 18 个不同的值。因此,for 循环中有 18 个 if 条件,并且代码现在还没有运行 15 分钟。这太荒谬了(很高兴知道为什么它花了这么长时间 - 在另一列仅包含 6 种不同类型的值,代码执行时间要少得多,大约 3 分钟)。

那么,实现此输出的最佳(矢量化)方法是什么?

最佳答案

使用joinget_dummiesadd_prefix :

df = df.join(pd.get_dummies(df['Fruit']).add_prefix('Fruit-'))
print (df)
    Fruit  Fruit-Apple  Fruit-Banana  Fruit-Mango
0   Apple            1             0            0
1  Banana            0             1            0
2   Mango            0             0            1
3  Banana            0             1            0
4   Mango            0             0            1
5   Apple            1             0            0

编辑:如果输入是多列,请按列使用 get_dummiesmax:

df = (df.join(pd.get_dummies(df, prefix='', prefix_sep='')
               .max(level=0, axis=1)
               .add_prefix('Fruit-')))
print (df)
    Fruit  FruitA  FruitB  Fruit-Apple  Fruit-Banana  Fruit-Mango
0   Apple  Banana   Mango            1             1            1
1  Banana   Apple   Apple            1             1            0
2   Mango   Apple  Banana            1             1            1
3  Banana   Mango  Banana            0             1            1
4   Mango  Banana   Apple            1             1            1
5   Apple   Mango   Mango            1             0            1

为了更好的性能使用MultiLabelBinarizer将 DataFrame 转换为 lists:

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
df = df.join(pd.DataFrame(mlb.fit_transform(df.values.tolist()),
                  columns=mlb.classes_, 
                  index=df.index).add_prefix('Fruit-'))
print (df)
    Fruit  FruitA  FruitB  Fruit-Apple  Fruit-Banana  Fruit-Mango
0   Apple  Banana   Mango            1             1            1
1  Banana   Apple   Apple            1             1            0
2   Mango   Apple  Banana            1             1            1
3  Banana   Mango  Banana            0             1            1
4   Mango  Banana   Apple            1             1            1
5   Apple   Mango   Mango            1             0            1

关于python - 如何在 pandas 数据帧中使用单热编码有效地规范化列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51374900/

相关文章:

python - 大多数 pythonic 方式尝试,除了,并重试一次

python - 如何在第一个 Python 之后选择字符串中的所有其他字符

python - 警告! ***HDF5 库版本不匹配错误*** python pandas windows

sql-server - 当两个表非常相似时,应何时将它们合并?

java - 在java中转换为utf-8

sql - 数字 ID 与字符串 ID

python - 生成一个摘要 ("pivot"?) 表

Python 2.x 字符串 : Unicode vs. 字节

python - Pandas:如何将列中的多个列表拆分为多行?

python - 每行获取第一个非空值