这是我打开文件的代码:
df = pd.read_csv(path_df, delimiter='|')
我收到错误:标记化数据时出错。 C 错误:第 13571 行应有 5 个字段,结果为 6
当我检查这一行时,我发现有一个打印错误,有 3 个符号“|||”而不是一个。我更愿意将双重和三重标志视为一个。可能还有其他解决方案。
我该如何解决这个问题?
最佳答案
使用正则表达式分隔符[|]+
- 一个或多个|
:
import pandas as pd
temp=u"""a|b|c
ss|||s|s
t|g|e"""
#after testing replace 'pd.compat.StringIO(temp)' to 'filename.csv'
df = pd.read_csv(pd.compat.StringIO(temp), sep="[|]+",engine='python')
print (df)
a b c
0 ss s s
1 t g e
关于Python pandas 定界符打印错误 - 双符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53629030/