python-3.x - 从冗余二进制数据集创建多标签数据集以进行多标签分类

标签 python-3.x pandas dataframe multilabel-classification

我得到了这样的数据集(数据框):

x   y

A   a
A   b
B   c
C   g
B   g

这是我需要的多标签分类-

x   y

A   a,b
B   c,g
C   g

我该怎么办?

最佳答案

选项 1
groupby','.join 结合使用

df.groupby('x').y.apply(','.join).reset_index()

   x    y
0  A  a,b
1  B  c,g
2  C    g

选项 2
pivot_table','.join 结合使用

df.pivot_table('y', 'x', aggfunc=','.join).reset_index()

   x    y
0  A  a,b
1  B  c,g
2  C    g

关于python-3.x - 从冗余二进制数据集创建多标签数据集以进行多标签分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44400623/

相关文章:

python - Pandas :摆脱多重索引

python-3.x - PIL 的 ImageDraw 中可用的确切颜色名称是什么?

python - “with”语句是否支持类型提示?

python - OSX 中的 "Cannot locate working compiler ",同时使用 pip 将 numpy 安装到 python 3.3

python - Pandas - 检查系列中的所有值是否都是 NaN

python - 同时在 Pandas 数据框中进行多个操作

python - 为什么冒泡排序比快速排序快

python - 在 azure ml 中运行笔记本时,如何最好地将 azure blob csv 格式转换为 pandas dataframe

pandas - 将 header 添加到 Pandas 中的 .data 文件

python - 按列值过滤 Pandas 分类数据框,然后更新其类别