python - 格式错误的 CSV 文件和 Pandas read_csv by chunk

标签 python csv pandas

我有一个 csv 文件:22 Go 大小,46000000 行 为了节省内存,csv文件按 block 读取和处理。

tp = pd.read_csv(f_in, sep=',', chunksize=1000, encoding='utf-8',quotechar='"') 
for chunk in tp: 
   chunk;

但是文件格式错误并引发异常:

Error tokenizing data. C error: Expected 87 fields in line 15092657, saw 162

有没有办法丢弃这个 block 并继续循环下一个 block ?

最佳答案

这个问题与之前提出的问题类似: Python Pandas Error tokenizing data

正如答案中所说,您必须意识到使用 error_bad_lines=False 会删除该行,并建议更好的方法是调查数据集中的该行。

关于python - 格式错误的 CSV 文件和 Pandas read_csv by chunk,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27526797/

相关文章:

python - 在 Ubuntu 上使用带有 SpatiaLite 的 GeoDjango 时出错

python - 迭代日期列表并计算每个间隔之间的天数

javascript - 我们应该如何将字符串数据转换为数组并显示到 react 表中

python - 如何使django脆皮形式隐藏特定字段?

python - 模拟 os.system 进行单元测试的最佳方法是什么(PyTest)

php - 处理格式错误的 CSV 文件

python - 通过Python将csv文件中第一行的分隔符从 ','替换为 ';'

python - 从具有不同非整数索引的大小不等的列表对象创建数据帧

python - Pandas 列内的映射值

python - 当您有多个组时,如何按连续日期进行分组?