python - Unicode解码错误: 'utf-8' codec can't decode byte 0xe2 in position 434852: invalid continuation byte

标签 python xml

我正在使用 hfcca 计算 C++ 代码的圈复杂度。 hfcca 是一个简单的 python 脚本 ( https://code.google.com/p/headerfile-free-cyclomatic-complexity-analyzer/ )。当我尝试运行脚本以生成 xml 文件形式的输出时，出现以下错误:

Traceback (most recent call last):
    "./hfcca.py", line 802, in <module>
    main(sys.argv[1:])
    File "./hfcca.py", line 798, in main
    print(xml_output([f for f in r], options))
    File "./hfcca.py", line 798, in <listcomp>
    print(xml_output([f for f in r], options))
    File "/x/home06/smanchukonda/PREFIX/lib/python3.3/multiprocessing/pool.py", line 652, in next
    raise value
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe2 in position 434852: invalid continuation byte

请帮我解决这个问题..

最佳答案

问题看起来是文件中包含用 latin1 表示的字符，这些字符不是 utf8 中的字符。 file 实用程序可用于确定应将文件视为何种编码，例如:

monk@monk-VirtualBox:~$ file foo.txt 
foo.txt: UTF-8 Unicode text

这是字节在 latin1 中的含义:

>>> b'\xe2'.decode('latin1')
'â'

可能最简单的方法是将文件转换为 utf8。

关于python - Unicode解码错误: 'utf-8' codec can't decode byte 0xe2 in position 434852: invalid continuation byte，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16148356/

上一篇：xmllint DTD 验证语法

下一篇：javascript - 在使用 XMLSerializer() 序列化 XML 之前从 XML 中删除无效字符

相关文章：

python - 删除整个数组 Python

Python3(Urllib) -<绑定(bind)方法 HTTPResponse.read of <http.client.HTTPResponse object at 0x03281BD0>>

python - 从调用导入的 python 文件中获取名称

XML 架构错误 "Element not allowed for content model"

python - 系统找不到为 check_output 指定的文件

用于基于网络的人工智能的 Python 或 Ruby？

python - 使用minidom python解析xml元素属性

sql - 在 SQL Server 中计算 XML 中的非空节点数

c# - 如何使用foreach添加父节点

Android Studio XML 布局文件存在但我找不到它