python - Unicode解码错误: 'utf8' codec can't decode bytes

标签 python utf-8 character-encoding escaping elementtree

我正在解析一个具有“iso-8859-15”编码的 xml 文件。

像“Zürich”、“Aktienrückk”这样的词会转换为“ä ;”等等

我尝试了这些建议:

p = ElementTree.fromstring(u'<p>found "\u62c9\u67cf \u591a\u516c \u56ed"</p>'.encode('utf8'))
>>> p.text
u'found "\u62c9\u67cf \u591a\u516c \u56ed"'
>>> print p.text

但我收到类似 UnicodeDecodeError: 'ascii' codec can't demodecode byte

的错误

即使这样也没有帮助

content = unicode(mystring.strip(codecs.BOM_UTF8), 'utf-8')

我在 Stack Overflow 上尝试了很多建议,但找不到我的方法。

我需要将解析的内容写回具有相同字符集(如“ü”)的 html 文件

最佳答案

试试这个:

from xml.etree import ElementTree
p = ElementTree.fromstring(u'<p>found "\u62c9\u67cf \u591a\u516c \u56ed"</p>'.encode('utf8'))
print p.text.encode('utf8')

found "拉柏 多公 园"

举个例子:

# -*- coding: utf-8 -*-
from xml.etree import ElementTree
text = 'Aktienrückk'.decode('utf8')
print text.encode('utf8')

 Aktienrückk

不要忘记将 # -*-coding: utf-8 -*- 放在文件的开头。

关于python - Unicode解码错误: 'utf8' codec can't decode bytes,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18467775/

相关文章:

python - Pandas 检查多行并复制不同的行

python - 如何在 Tkinter 中将滚动条放入列表框内?

c# - C 和 C# 的 ANSI 字符处理

java - 如何在java中创建utf-8编码的文件,以便在 Notepad++ /记事本或任何其他文本编辑器中打开时显示为UTF-8编码

python - wikitools、维基百科和 python

python: 在 cygwin 上使用 ctypes 时出现 sigsegv

php - 如何用 php 显示 mdb(access) 文件字段(包括 utf8(阿拉伯波斯语)字符)?

php - cakephp 从 5.4 迁移到 5.3 时出现 mysql 编码问题

PHP UTF-8编码回显问号

css - Drupal 聚合 CSS 不起作用。所有样式都消失了(不,它不是重复的)