python - 使用 read_excel 时，Pandas 不断重复行

我使用 read_excel() 将 xlsx 电子表格转换为数据框。它通常工作正常，但对于此电子表格，当我导入它并尝试使用 df["Date"] 列出所有值时，它似乎会多次重复每个日期。知道这是为什么吗？

    df = pd.read_excel("data.xlsx", sheet_name="Data")
    dates = df['Date']

结果:

    0        2014-12-22
    1        2014-12-22
    2        2014-12-22
    3        2014-12-22
    4        2014-12-22
                ...
    419532   2020-01-10
    419533   2020-01-10
    419534   2020-01-10
    419535   2020-01-10
    419536   2020-01-10

编辑:电子表格的一些内容:

正如您所看到的，日期是重复的，它们绝对不像我的电子表格中的那样。知道为什么吗？谢谢

最佳答案

pd.read_excel() 将读取整个工作表，除非您将其限制在有限范围内。 Excel 有许多函数可以更改工作表的显示，而无需更改工作表中存在的数据(过滤、隐藏行等)。因此，额外的行是工作表中存在但已隐藏的数据。腹肌

一些明显的迹象是过滤器按钮中是否包含过滤符号、蓝色行号和隐藏行，如下所示。

检查以确保您可以看到所有数据，以便了解工作表中的内容而不是仅可见的内容。

要获得与您拥有的相同的 View ，您可以使用条件过滤数据框。

df = df[df['city'] == 'CALGARY']

或多个条件:

df = df[(df['city'] == 'CALGARY') & (df['utility'] == 'Suncor')]

关于python - 使用 read_excel 时，Pandas 不断重复行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59709941/

上一篇：python - 对 dict 中的 Unicode 字符进行编码以作为 POST 请求中的数据发送

下一篇：python - 如何有条件地在 numpy ndarray 的特定 Axis 上的特定位置设置值

相关文章：

c# - 在实际打开之前提取 Excel 工作簿名称

excel - 在 Access VBA 中将子例程应用于日期范围

Pandas ，按周分组数据

python - 只获取 Pandas 数据框中其他属性不同值的第一行？

python - Pandas read_html() 在特定列上返回 'nan'

python - 如何计算 pandas 中两个数据帧的平均值？

python - 使用 Paramiko 在 SFTP 中“放入”

从 ftp 服务器读取 xlsx(使用 RCurl)

python - 使用分层索引更新数据框

javascript - 根据 django 模板中的列过滤数据时出错