python - python 中缺失值的统计

标签 python pandas numpy

我有一个巨大的数据集,大约有 23 列。我想对第 18 列(以及许多其他列)进行描述性统计,但有很多缺失值。我想知道如果单元格不是缺失值,是否存在像 SAS 中那样的命令来计算统计数据。在我提供的图片中,我想计算第 1,2,5 列的描述性统计数据

每列中至少有 1 个 N/A,因此我无法删除 N/A。

My dataframe

我尝试了以下方法

import numpy 
numpy.nanmean(df_14,axis=18)

但是没有成功。顺便说一句,我是 Python 新手。

谢谢,

最佳答案

df.describe() 就可以了。

在计算描述性统计数据时,Pandas 默认忽略 NaN 值。

示例:直接取自 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

>>> df = pd.DataFrame({'categorical': pd.Categorical(['d','e','f']),
...                    'numeric': [1, 2, 3],
...                    'object': ['a', 'b', 'c']
...                   })
>>> df.describe()   
       numeric
count      3.0
mean       2.0
std        1.0
min        1.0
25%        1.5
50%        2.0
75%        2.5
max        3.0

关于python - python 中缺失值的统计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58922494/

相关文章:

python - 如何构建符合 PEP384 的 Python 扩展模块并使用正确的 ABI3 标签对其进行打包?

python - cx_Oracle中如何使用Pandas Write_Frame将结果导出到Oracle数据库

python - Pandas 为每个唯一 ID 选择较高的值

python - 如何使用 Pandas 仅用空字符串替换无?

python - Numpy/Scipy 如何将 C 函数转换为向量化的 Python 函数?

python - 获取具有日期时间格式的列,例如 (2017-02-12 10 :23:55 AM)[YYYY-MM-dd hh:mm:ss AM/PM] using pandas

python - 检查给定 float 落在列表中的哪个 float 之间

python - 从列表中创建唯一项目的子列表

python - 无法在 Python 中格式化字符串

python - 训练模型和负载模型的精度不同