python - 使用 read_excel 时,Pandas 不断重复行

标签 python excel pandas dataframe

我使用 read_excel() 将 xlsx 电子表格转换为数据框。它通常工作正常,但对于此电子表格,当我导入它并尝试使用 df["Date"] 列出所有值时,它似乎会多次重复每个日期。知道这是为什么吗?

    df = pd.read_excel("data.xlsx", sheet_name="Data")
    dates = df['Date']

结果:

    0        2014-12-22
    1        2014-12-22
    2        2014-12-22
    3        2014-12-22
    4        2014-12-22
                ...
    419532   2020-01-10
    419533   2020-01-10
    419534   2020-01-10
    419535   2020-01-10
    419536   2020-01-10

编辑:电子表格的一些内容:

enter image description here 正如您所看到的,日期是重复的,它们绝对不像我的电子表格中的那样。知道为什么吗?谢谢

最佳答案

pd.read_excel() 将读取整个工作表,除非您将其限制在有限范围内。 Excel 有许多函数可以更改工作表的显示,而无需更改工作表中存在的数据(过滤、隐藏行等)。因此,额外的行是工作表中存在但已隐藏的数据。腹肌

一些明显的迹象是过滤器按钮中是否包含过滤符号、蓝色行号和隐藏行,如下所示。

enter image description here

检查以确保您可以看到所有数据,以便了解工作表中的内容而不是仅可见的内容。

要获得与您拥有的相同的 View ,您可以使用条件过滤数据框。

df = df[df['city'] == 'CALGARY']

或多个条件:

df = df[(df['city'] == 'CALGARY') & (df['utility'] == 'Suncor')]

关于python - 使用 read_excel 时,Pandas 不断重复行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59709941/

相关文章:

c# - 在实际打开之前提取 Excel 工作簿名称

excel - 在 Access VBA 中将子例程应用于日期范围

Pandas ,按周分组数据

python - 只获取 Pandas 数据框中其他属性不同值的第一行?

python - Pandas read_html() 在特定列上返回 'nan'

python - 如何计算 pandas 中两个数据帧的平均值?

python - 使用 Paramiko 在 SFTP 中“放入”

从 ftp 服务器读取 xlsx(使用 RCurl)

python - 使用分层索引更新数据框

javascript - 根据 django 模板中的列过滤数据时出错