我正在尝试使用 pd.read_csv
加载 csv 文件但我收到以下 unicode 错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte
最佳答案
不幸的是,CSV 文件没有内置的信号字符编码方法。read_csv
默认猜测 CSV 文件中的字节代表以 UTF-8 编码的文本。这导致 UnicodeDecodeError
如果文件使用其他编码导致字节碰巧不是有效的 UTF-8 序列。 (如果他们碰巧碰巧也是有效的 UTF-8,你就不会得到错误,但你仍然会得到非 ASCII 字符的错误输入,这真的会更糟。)
由您来指定正在使用的编码,这需要对编码的来源有一定的了解(或猜测)。例如,如果它来自西方安装的 Windows 上的 MS Excel,它可能是 Windows 代码页 1252,您可以使用以下命令阅读它:
pd.read_csv('../filename.csv', encoding='cp1252')
关于pandas - UnicodeDecodeError : 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45492678/