python - 使用 pandas read_csv 和 nrows 读取 ~13000 行 CSV 文件的部分内容

标签 python csv python-3.x pandas

我正在尝试将 CSV 文件的片段读取到 pandas DataFrame 中,当我将 nrows 设置为超过某个点时遇到了麻烦。我的 CSV 文件被分成具有不同标题/数据类型的不同段,因此我浏览了文件并找到了不同段的行号,并保存了行号。当我尝试这样做时:

pd.io.parsers.read_csv('filename',skiprows=40, nrows=12646)

它工作正常。任何更多的行,它会抛出一个错误:

CParserError: Error tokenizing data. C error: Expected 56 fields in line 13897, saw 71

第 13897 行确实有那么多行,这就是我尝试使用 nrows 和 skiprows 的原因。我可以找到 pandas 将读取的最后一行,它看起来与其余行没有任何不同。在十六进制编辑器中查看文件,我仍然看不出有任何区别。

我也用另一个 CSV 文件尝试过,我得到了类似的结果:

pd.io.parsers.read_csv('file2',skiprows=112, nrows=18524)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18188 entries, 0 to 18187

但是:

pd.io.parsers.read_csv('file2',skiprows=112, nrows=18525)

给出:

CParserError: Error tokenizing data. C error: Expected 56 fields in line 19190, saw 71

有什么我想念的吗?还有其他方法吗?

我正在使用:pandas-0.10.1.win-amd64-py3.3numpy-MKL-1.7.1rc1.win-amd64-py3.3,以及 Windows 上的 python-3.3.0.amd64。我在 numpy-unoptimized-1.7.1rc1.win-amd64-py3.3 中遇到了同样的问题。

最佳答案

您可以使用warn_bad_lineserror_bad_lines 关闭坏线错误和警告:

import pandas as pd
from StringIO import StringIO
data = StringIO("""a,b,c
1,2,3
4,5,6
6,7,8,9
1,2,5
3,4,5""")
pd.read_csv(data, warn_bad_lines=False, error_bad_lines=False)

关于python - 使用 pandas read_csv 和 nrows 读取 ~13000 行 CSV 文件的部分内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15837767/

相关文章:

最后一次迭代后关闭范围的 Pythonic 方式

xml - 将数据加载到 Core Data (iOS) 的最快/首选方法

python argparse遇到 '$'后停止解析

Python 自省(introspection) - 如何从函数内部检查当前模块/调用行

python - 从一根 Pandas 列中提取多列

python - 使用 pandas 从 2 列中提取现有和不存在的值

r - 如何在r中导入csv数据后删除空行

python - 我不断收到错误 : TypeError: integer argument expected, 在 Python 3.6.5 中 float

python - 绘制到 Pycharm 的 IPython 控制台

python - Python 中的对数不准确