python - 需要转置 Pandas 数据框

标签 python pandas pivot transpose

我有一个看起来像这样的系列:

      col1          id
 0      a           10
 1      b           20
 2      c           30
 3      b           10
 4      d           10
 5      a           30
 6      e           40

我想要的输出是这样的:

    a   b   c   d   e
10  1   1   0   1   0
20  0   1   0   0   0
30  1   0   1   0   0
40  0   0   0   0   1

我得到了这个代码:

import pandas as pd

df['dummies'] = 1
df_ind.pivot(index='id', columns='col1', values='dummies') 

我得到一个错误:

    137 
    138         if mask.sum() < len(self.index):
--> 139             raise ValueError('Index contains duplicate entries, '
    140                              'cannot reshape')
    141 

ValueError: Index contains duplicate entries, cannot reshape

存在重复的 ID,因为 col1 中的多个值可以归因于单个 ID。

我怎样才能达到预期的输出?

谢谢!

最佳答案

你可以使用pd.crosstab

In [329]: pd.crosstab(df.id, df.col1)
Out[329]:
col1  a  b  c  d  e
id
10    1  1  0  1  0
20    0  1  0  0  0
30    1  0  1  0  0
40    0  0  0  0  1

或者,使用pd.pivot_table

In [336]: df.pivot_table(index='id', columns='col1', aggfunc=len, fill_value=0)
Out[336]:
col1  a  b  c  d  e
id
10    1  1  0  1  0
20    0  1  0  0  0
30    1  0  1  0  0
40    0  0  0  0  1

或者,使用groupbyunstack

In [339]: df.groupby(['id', 'col1']).size().unstack(fill_value=0)
Out[339]:
col1  a  b  c  d  e
id
10    1  1  0  1  0
20    0  1  0  0  0
30    1  0  1  0  0
40    0  0  0  0  1

关于python - 需要转置 Pandas 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42179665/

相关文章:

python - 使用 NumPy 的总和时避免循环

python - 遍历类文件和调用 readline 之间的区别

python - 使用 Python Pandas 取消透视/堆叠透视表

mysql - 在 MySQL 中构建动态数据透视查询

mysql - 如何在 MySQL 中将行数据转置为列

windows-phone-7 - "Refresh"使用 WP7 的 Mvvm-light 工具包进行枢轴控制

python - pip 错误 : unrecognized command line option ‘-fstack-protector-strong’

python - 为什么PIL不能修改灰度BMP图像数据?

python - 填充DataFrame,缺失数据

pandas - 如何获取pandas数据框中特定列的模式值的索引