我正在阅读“用于数据分析的 Python”一书,在“示例:2012 年联邦选举委员会数据库”部分将数据读取到 DataFrame 时遇到问题。问题是其中一列数据总是被设置为索引列,即使 index_col 参数设置为 None。

这里是数据的链接: .


import pandas as pd
fec = pd.read_csv('P00000001-ALL.csv',nrows=10,index_col=None)


In [20]: fec

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, C00410118 to C00410118
Data columns:
dtypes: float64(4), int64(3), object(11)


In [13]: fec = read_csv('P00000001-ALL.csv')
In [14]: fec
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1001731 entries, 0 to 1001730
dtypes: float64(1), int64(1), object(14)

我的输出中的索引值实际上是文件中的第一列数据,然后将所有其余数据向左移动一个。有谁知道如何防止这列数据被列为索引?我希望索引只是 +1 增加整数。

我对 python 和 pandas 还很陌生,因此对于给您带来的任何不便,我深表歉意。谢谢。



使用 index_col=False而不是 index_col=None当您在每行末尾有分隔符以关闭索引列推断并丢弃最后一列时。



index_col: column number, column name, or list of column numbers/names, to use as the index (row labels) of the resulting DataFrame. By default, it will number the rows without using any column, unless there is one more data column than there are headers, in which case the first column is taken as the index.

来自 the documentation表明 pandas 认为您有 n 个标题和 n+1 个数据列,并将第一列视为索引。

编辑 2014 年 10 月 20 日 - 更多信息

我找到了 another valuable entry这特别是关于尾随限制器以及如何简单地忽略它们:

If a file has one more column of data than the number of column names, the first column will be used as the DataFrame’s row names: ...

Ordinarily, you can achieve this behavior using the index_col option.

There are some exception cases when a file has been prepared with delimiters at the end of each data line, confusing the parser. To explicitly disable the index column inference and discard the last column, pass index_col=False: ...

