python - Mechanize 的 UnicodeDecodeError 问题

<分区>

我通过 mechanize 从一个网站收到以下字符串:

'We\x92ve'

我知道\x92 代表 ’ 字符。我正在尝试将该字符串转换为 Unicode:

>> unicode('We\x92ve','utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0x92 in position 2: unexpected code byte

我做错了什么？

编辑:我尝试“utf-8”的原因是:

>> response = browser.response()
>> response.info()['content-type']
'text/html; charset=utf-8'

现在我发现我不能总是信任 content-type header 。

最佳答案

\x92 代表 ’ 好吧，但它在 Windows-1252 编码中这样做，而不是在 UTF-8 中:

>>> print unicode('We\x92ve','1252')
We’ve

如果您不知道源数据的编码方式，您可以使用 chardet 检测它(非常易于使用)。

关于python - Mechanize 的 UnicodeDecodeError 问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2305997/