pandas - UnicodeDecodeError : 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte

标签 pandas csv unicode load python-unicode

我正在尝试使用 pd.read_csv 加载 csv 文件但我收到以下 unicode 错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte

最佳答案

不幸的是,CSV 文件没有内置的信号字符编码方法。
read_csv默认猜测 CSV 文件中的字节代表以 UTF-8 编码的文本。这导致 UnicodeDecodeError如果文件使用其他编码导致字节碰巧不是有效的 UTF-8 序列。 (如果他们碰巧碰巧也是有效的 UTF-8,你就不会得到错误,但你仍然会得到非 ASCII 字符的错误输入,这真的会更糟。)

由您来指定正在使用的编码,这需要对编码的来源有一定的了解(或猜测)。例如,如果它来自西方安装的 Windows 上的 MS Excel,它可能是 Windows 代码页 1252,您可以使用以下命令阅读它:

pd.read_csv('../filename.csv', encoding='cp1252')

关于pandas - UnicodeDecodeError : 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45492678/

相关文章:

python - 月份乘以天数怎么算

python - 使用 pandas/matplotlib 使用 for 循环创建条形图

csv - 在Flutter中读取CSV文件时没有此类文件

c - 为什么输出字符串以奇怪的方式连接?

python - Pandas to_sql - 追加与替换

python - Pandas `transform(set)` 引发异常

Python解析csv文件——用冒号代替逗号

python - 修复由(某些)转义反斜杠破坏的 unicode 字符串

c# - iOS-Unicode取消签名

haskell - 为什么这个 Haskell 语句在 GHCi 中有效但无法编译?