我有一个巨大的数据集,大约有 23 列。我想对第 18 列(以及许多其他列)进行描述性统计,但有很多缺失值。我想知道如果单元格不是缺失值,是否存在像 SAS 中那样的命令来计算统计数据。在我提供的图片中,我想计算第 1,2,5 列的描述性统计数据
每列中至少有 1 个 N/A,因此我无法删除 N/A。
我尝试了以下方法
import numpy
numpy.nanmean(df_14,axis=18)
但是没有成功。顺便说一句,我是 Python 新手。
谢谢,
最佳答案
df.describe()
就可以了。
在计算描述性统计数据时,Pandas 默认忽略 NaN 值。
示例:直接取自 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html
>>> df = pd.DataFrame({'categorical': pd.Categorical(['d','e','f']),
... 'numeric': [1, 2, 3],
... 'object': ['a', 'b', 'c']
... })
>>> df.describe()
numeric
count 3.0
mean 2.0
std 1.0
min 1.0
25% 1.5
50% 2.0
75% 2.5
max 3.0
关于python - python 中缺失值的统计,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58922494/