python - python 中缺失值的统计

标签 python pandas numpy

我有一个巨大的数据集，大约有 23 列。我想对第 18 列(以及许多其他列)进行描述性统计，但有很多缺失值。我想知道如果单元格不是缺失值，是否存在像 SAS 中那样的命令来计算统计数据。在我提供的图片中，我想计算第 1,2,5 列的描述性统计数据

每列中至少有 1 个 N/A，因此我无法删除 N/A。

My dataframe

我尝试了以下方法

import numpy 
numpy.nanmean(df_14,axis=18)

但是没有成功。顺便说一句，我是 Python 新手。

谢谢，

最佳答案

df.describe() 就可以了。

在计算描述性统计数据时，Pandas 默认忽略 NaN 值。

示例:直接取自 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

>>> df = pd.DataFrame({'categorical': pd.Categorical(['d','e','f']),
...                    'numeric': [1, 2, 3],
...                    'object': ['a', 'b', 'c']
...                   })
>>> df.describe()   
       numeric
count      3.0
mean       2.0
std        1.0
min        1.0
25%        1.5
50%        2.0
75%        2.5
max        3.0

关于python - python 中缺失值的统计，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58922494/

上一篇：python - WebDriverException : Message: Service chromedriver unexpectedly exited. 状态代码为:127

下一篇：python - 当一个Python函数被修饰时，该修饰在哪些范围内可见？

python - cx_Oracle中如何使用Pandas Write_Frame将结果导出到Oracle数据库

python - Pandas 为每个唯一 ID 选择较高的值

python - 如何使用 Pandas 仅用空字符串替换无？

python - Numpy/Scipy 如何将 C 函数转换为向量化的 Python 函数？

python - 获取具有日期时间格式的列，例如 (2017-02-12 10 :23:55 AM)[YYYY-MM-dd hh:mm:ss AM/PM] using pandas

python - 检查给定 float 落在列表中的哪个 float 之间

python - 从列表中创建唯一项目的子列表

python - 无法在 Python 中格式化字符串

python - 训练模型和负载模型的精度不同