python - 计算数据框中列的汇总统计信息

标签 python pandas csv dataframe profiling

我有一个如下形式的数据框(例如)

shopper_num,is_martian,number_of_items,count_pineapples,birth_country,tranpsortation_method
1,FALSE,0,0,MX,
2,FALSE,1,0,MX,
3,FALSE,0,0,MX,
4,FALSE,22,0,MX,
5,FALSE,0,0,MX,
6,FALSE,0,0,MX,
7,FALSE,5,0,MX,
8,FALSE,0,0,MX,
9,FALSE,4,0,MX,
10,FALSE,2,0,MX,
11,FALSE,0,0,MX,
12,FALSE,13,0,MX,
13,FALSE,0,0,CA,
14,FALSE,0,0,US,

如何使用Pandas计算每一列的汇总统计(列数据类型可变,有些列没有信息

然后返回表单的一个数据框:

columnname, max, min, median,

is_martian, NA, NA, FALSE

等等等等

最佳答案

describe可能会为您提供所需的一切,否则您可以使用 groupby 执行聚合并传递 agg 函数列表:http://pandas.pydata.org/pandas-docs/stable/groupby.html#applying-multiple-functions-at-once

In [43]:

df.describe()

Out[43]:

       shopper_num is_martian  number_of_items  count_pineapples
count      14.0000         14        14.000000                14
mean        7.5000          0         3.357143                 0
std         4.1833          0         6.452276                 0
min         1.0000      False         0.000000                 0
25%         4.2500          0         0.000000                 0
50%         7.5000          0         0.000000                 0
75%        10.7500          0         3.500000                 0
max        14.0000      False        22.000000                 0

[8 rows x 4 columns]

请注意,某些列无法汇总,因为没有逻辑方法可以汇总它们,例如包含字符串数据的列

您可以随意转置结果:

In [47]:

df.describe().transpose()

Out[47]:

                 count      mean       std    min   25%  50%    75%    max
shopper_num         14       7.5    4.1833      1  4.25  7.5  10.75     14
is_martian          14         0         0  False     0    0      0  False
number_of_items     14  3.357143  6.452276      0     0    0    3.5     22
count_pineapples    14         0         0      0     0    0      0      0

[4 rows x 8 columns]

关于python - 计算数据框中列的汇总统计信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22235245/

相关文章:

python - 如何根据频率将列表中的元素分组到元组中

python - Pandas - 保证数据透视表后列的存在

python - 在 WSGI/apache 应用程序中强制执行每个 IP 的并发线程限制

python - 过滤 2 列仅包含零值的行

python - 如何将 Pandas 数据框转换为多索引数据框

java - 将 hashmap 中的数据写入 CSV 文件

python - 执行从文件中读取的代码

python - 按字典重新分配 pandas 列对原始 DataFrame 没有影响?

python - 即使文件存在,文件 b'train.csv' 也不存在

java - 在 Java 正则表达式中使用空格