python - 尝试用 Pandas 读取表时出现 IndexError

标签 python pandas

更新:这是“usecols with parse_dates and names”的副本,但这个问题首先得到了回答。


我无法让这段代码为我的生活工作。一旦我取出 names 参数,它就可以正常工作,但这很愚蠢。

我想从一个空格分隔的文件中:

  • 跳过标题部分
  • 导入选定的列
  • 为列命名
  • 将两列解析为日期
  • 使用解析的日期作为索引

这几乎可以工作:

import panadas as pd
columns = [4, 5, 10, 11, 15, 16, 17, 26, 28, 29]
names = ["DATE","TIME","DLAT", "DLON", "SLAT", "SLON", "SHGT", "HGT", "N", "E"]
ppp_data = pd.read_table(
    filename,
    delim_whitespace=True, # space delimited
    skiprows=8, # skip header rows
    header=None, # don't use first row as column names
    usecols=columns, # only use selected columns
    names=names, # use names for selected columns
    parse_dates=[[4,5]], # join date and time columns and parse as date
    index_col=0, # use parsed date (now column 0) as index
)
print ppp_data

但这是我得到的堆栈跟踪

Traceback (most recent call last):
  File "plot_squat_test_pandas.py", line 30, in <module>
    index_col=0,
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 400, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 205, in _read
    return parser.read()
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 608, in read
    ret = self._engine.read(nrows)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 1028, in read
    data = self._reader.read(nrows)
  File "parser.pyx", line 706, in pandas.parser.TextReader.read (pandas/parser.c:6745)
  File "parser.pyx", line 728, in pandas.parser.TextReader._read_low_memory (pandas/parser.c:6964)
  File "parser.pyx", line 804, in pandas.parser.TextReader._read_rows     (pandas/parser.c:7780)
  File "parser.pyx", line 865, in pandas.parser.TextReader._convert_column_data (pandas/parser.c:8512)
  File "parser.pyx", line 1105, in pandas.parser.TextReader._get_column_name (pandas/parser.c:11684)
IndexError: list index out of range

如果我注释掉 names=names 参数并且它工作正常

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 86281 entries, 2013-10-30 00:00:00 to 2013-10-30 23:59:59
Data columns (total 8 columns):
10    86281  non-null values
11    86281  non-null values
15    86281  non-null values
16    86281  non-null values
17    86281  non-null values
26    86281  non-null values
28    86281  non-null values
29    86281  non-null values

我错过了什么?或者这是 panadas 的问题,我应该去报告错误吗?

我使用的是 python 2.7.3,对于 pandas,上面的堆栈跟踪来自稳定版本 0.12.0。我已经在开发版本 0.13.0rc1-119-g2485e09 上进行了尝试,得到了相同的结果(不同的行号)。

最佳答案

这是一个 bug在当前开发版本 0.13.0rc1-119-g2485e09 之前的 pandas 版本中(包括当前开发版本)。有两种解决方法。

解决方法 1

usecolsnames 中包含表的最后一列将抑制 IndexError

from StringIO import StringIO
import pandas as pd

data = """2013-10-11 11:53:49,1,2,3,4
2013-10-11 11:53:50,1,2,3,4
2013-10-11 11:53:51,1,2,3,4"""

df = pd.read_csv(
    StringIO(data),
    header=None,
    usecols=[0,2,4],
    names=["DATE","COl2","COL4"],
    parse_dates=["DATE"],
    index_col=0,
)
print df

解决方法 2

或者您可以 rename事实上之后的列,如 this question

ppp_data.rename(columns=dict(zip(columns[2:],names)), inplace=True)

关于python - 尝试用 Pandas 读取表时出现 IndexError,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20720197/

相关文章:

python - 将列表列表转换为数据框

python - 每次按下 `tkinter` 中的按钮时,如何为标签获取不同的值?

python - 从未在 AWS Lambda 上找到设置工具

c++ - Google 和 Facebook 使用哪些前端和后端技术?

python - 将 Pandas Dataframe 转换为 sklearn 的 numpy

python - Pandas 回合不适用于 DataFrame

python - 将 getfem++ 导入 conda 环境? - 树莓派 4 - Ubuntu 21.04

python - Pandas:如何选择按键分组的一系列行的最小值

python - 如何获取一列中最常见的类别并将其余计数存储在另一列中

python - Pandas 中两个特定日期时间范围之间出现的数字