python - 计算每列的统计数据并将其添加到空数据框

标签 python pandas statistics

我的想法是从数据帧的每一列中获取平均值、中位数、var、最小值、最大值等统计数据,并将其保存到一个新的空数据帧中。我的数据框如下所示:

    A   B   C   D
0   3   4   2   1
1   4   3   3   1
2   4   2   3   0

我的新数据框应该如下所示:

A_mean | A_median | A_var | A_max | A_min | B_mean | B_median | B_var | B_max  |B_min | ...
 1          2         1       1       0      1           1        1       2       1     ...

我无法使用 df.describe(),因为它没有 var 或中值。

我的实现想法:

row=pd.DataFrame()
for column in df:
        row = row.append({column + '_mean':df_test[column].mean()}, ignore_index=True) 
        row = row.append({column + '_median':df_test[column].median()}, ignore_index=True)
        row = row.append({column + '_var':df_test[column].var()}, ignore_index=True)
        row = row.append({column + '_max':df_test[column].max()}, ignore_index=True)
        row = row.append({column + '_min':df_test[column].min()}, ignore_index=True)

但后来我明白了

enter image description here

我的目标是将其放在一行而不是 10 个不同的行中。我如何更改我的代码?

最佳答案

如果可能的话更改格式使用 agg列表中的函数:

df = df.agg(['mean','median', 'var','max','min'])
print (df)
               A    B         C         D
mean    3.666667  3.0  2.666667  0.666667
median  4.000000  3.0  3.000000  1.000000
var     0.333333  1.0  0.333333  0.333333
max     4.000000  4.0  3.000000  1.000000
min     3.000000  2.0  2.000000  0.000000

或添加unstackto_frame并转置,最后展平一行的列名称DataFrame:

df = df.agg(['mean','median', 'var','max','min']).unstack().to_frame().T
df.columns = df.columns.map('_'.join)
print (df)
     A_mean  A_median     A_var  A_max  A_min  B_mean  B_median  B_var  B_max  \
0  3.666667       4.0  0.333333    4.0    3.0     3.0       3.0    1.0    4.0   

   B_min    C_mean  C_median     C_var  C_max  C_min    D_mean  D_median  \
0    2.0  2.666667       3.0  0.333333    3.0    2.0  0.666667       1.0   

      D_var  D_max  D_min  
0  0.333333    1.0    0.0  

关于python - 计算每列的统计数据并将其添加到空数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53280927/

相关文章:

mysql按组百分位排名

python - pandas 中是否有一个函数可以在数据帧行中查找某些数据的 "gaps"?

python - 通过第二个索引访问 pandas groupby multiindex

python - 在Python中将多列转换为行

python - 如何对以下内容进行矢量化,追加可能是瓶颈

python - Pandas 在条件下删除重复项

python - 'frozen distribution' 在 Scipy 中是什么意思?

r - 计算R中偏差的平方和

python - 带有 numpy 数组的条件循环

python - 索引错误 : list index out of range - python