我正在处理我的数据可视化作业。首先,我必须检查我找到的数据集,并在必要时进行数据整理。该数据由马德里空气质量的几个粒子指数组成,这些数据是由不同的站点收集的。
我发现表中缺少一些值。如何通过工具(python 或 R 或 Tableau)快速检查这些缺失值并替换这些值?
最佳答案
在 Python 中,您可以使用 pandas 模块将 Excel 文件加载为 DataFrame
。发布这个,很容易替换 NaN
/缺失值。
假设您的 Excel 名为 madrid_air.xlsx
import pandas as pd
df = pd.read_excel('madrid_air.xlsx')
发布此内容,您将拥有他们所谓的 DataFrame
,它由 excel 文件中的数据组成,采用相同的表格格式,具有列名和索引。在 DataFrame 中,缺失值将作为 NaN
值加载。因此,为了获取包含 NaN
值的行,
df_nan = df[df.isna()]
df_nan
将包含包含 NaN
值的行。
现在,如果您想用 0 填充所有这些 NaN
值。
df_zerofill = df.fillna(0)
df_zerofill
会将整个 DataFrame 的所有 NaN
替换为 0。
为了专门填充列,请使用列名。
df[['NO','NO_2']] = df[['NO','NO_2']].fillna(0)
这将用 0 填充 NO
和 NO_2
列的缺失值。
阅读更多关于 DataFrame
的信息:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html
阅读更多关于处理 DataFrame
中缺失数据的信息:https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html
关于python - 检查excel表中的缺失值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55755989/