python - 具有类别和对象数据类型的 Pandas 数据透视表会产生不同的结果

标签 python pandas pivot-table categorical-data

考虑以下数据框:

data = {'person_id': [1,2,2,2,3,4,4,6], 
        'admission_id': [123,234,234,234,345,456,567,678], 
        'timespan': ['12h', '12h', '24h', '36h', '12h', '12h', '24h', '48h'], 
        'label': ['A', 'B', 'B', 'B', 'C', 'C', 'C', 'B'], 
        'value': [56,170,170,170,65,64,53,150]}
df = pd.DataFrame(data=data)

每列的数据类型如下:

<class 'pandas.core.frame.DataFrame'> RangeIndex: 8 entries, 0 to 7 Data columns (total 5 columns): admission_id 8 non-null int64 label 8 non-null object person_id 8 non-null int64 timespan 8 non-null object value 8 non-null int64 dtypes: int64(3), object(2) memory usage: 400.0+ bytes

转换前的表格如下:

before_pivoting_table

执行pivot_table转换会产生下表:

df.pivot_table(values='value', index=['person_id', 'admission_id', 'timespan'], columns='label', fill_value=0)

object_datatype_table

我理想的表结构是每一行 person_id 和mission_id 显示所有 4 个时间跨度值(即 12h、24h、36h 和 48h)的值,即使它们都是空值。

然后我尝试将“timespan”转换为分类数据类型,如下所示:

df['timespan'] = df['timespan'].astype('category')

执行另一个数据透视表会产生完全不同的结果:

category_datatype_table

现在,我在每一行上显示时间跨度的所有 4 个可能值,但我的第二级行索引,admissions_id,也被分类。现在每个admission_id 都与每个person_id 一起出现。

需要澄清的是,每个admission_id对于每个person_id都是唯一的,即不会有重复的admission_id,但一个person_id可以有多个admission_id。

有什么方法可以创建我理想的表结构,它应该看起来像这样吗?:

person_id admission_id timespan A  B   C
     1        123         12h   56 0   0
                          24h   0  0   0
                          36h   0  0   0
                          48h   0  0   0
     2        234         12h   0  170 0
                          24h   0  170 0
                          36h   0  170 0
                          48h   0  0   0
     3        345         12h   0  0   65
                          24h   0  0   0
                          36h   0  0   0
                          48h   0  0   0

最佳答案

使用 unstack 添加 stack :

df1 = df.pivot_table(values='value', 
                     index=['person_id', 'admission_id', 'timespan'], 
                     columns='label', 
                     fill_value=0)
df2 = df1.unstack(fill_value=0).stack()

或者非常相似:

df2 = df.pivot_table(values='value', 
                     index=['person_id', 'admission_id'], 
                     columns=['label', 'timespan'], 
                     fill_value=0).stack().fillna(0).astype(int)

或者:

df2 = (df.groupby(['person_id', 'admission_id', 'timespan', 'label'])['value']
         .mean()
         .unstack(level=['label','timespan'])
         .fillna(0)
         .stack()
         .fillna(0).astype(int))
print (df2)
<小时/>
print (df2)
label                             A    B   C
person_id admission_id timespan             
1         123          12h       56    0   0
                       24h        0    0   0
                       36h        0    0   0
                       48h        0    0   0
2         234          12h        0  170   0
                       24h        0  170   0
                       36h        0  170   0
                       48h        0    0   0
3         345          12h        0    0  65
                       24h        0    0   0
                       36h        0    0   0
                       48h        0    0   0
4         456          12h        0    0  64
                       24h        0    0   0
                       36h        0    0   0
                       48h        0    0   0
          567          12h        0    0   0
                       24h        0    0  53
                       36h        0    0   0
                       48h        0    0   0
6         678          12h        0    0   0
                       24h        0    0   0
                       36h        0    0   0
                       48h        0  150   0

关于python - 具有类别和对象数据类型的 Pandas 数据透视表会产生不同的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48960528/

相关文章:

python - 将函数应用于 Pandas DataFrame 的列,以数据类型为条件

excel - 在 Excel 数据透视表中应用多个值筛选器

Python - 按日期透视日志数据

Python Tkinter : Binding Same Key Twice?

python - 你如何在for循环中制作一个字符串向量

python - 如何使用 python 和 pandas 导入 Excel 文件并搜索特定记录?

Python pandas : Multi-column filter using ~df. type.isin 和 !=

python - 创建将字典中的 2 个键映射到相同值的数据框列

C++数据透视表实现

python - Pygame 圆及其关联的用于碰撞检测的矩形