由于 C 扩展中的一些错误,我正在使用 str 实例获取 unicode 数据,或者换句话说,str 根本没有编码,并且是 unicode 文字。
例如,这是一个有效的 unicode 文字
>>> u'\xa1Se educado!'
UTF-8 编码的 str 为:
>>> '\xc2\xa1Se educado!'
但是,我得到了一个带有 unicode 文字的 str:
>>> '\xa1Se educado!'
我需要从中创建一个 unicode 实例。使用 unicode()
不起作用,因为它需要编码。我认为 ''.join(unichr(ord(x)) for x in s)
可以满足我的需要,但它真的很难看。必须有更好的解决方案。有什么想法吗?
最佳答案
正如我所怀疑的,必须有一种方法可以使用 python 用于 unicode 的任何“编码”对其进行解码,这就是 raw_unicode_escape
。
>>> unicode('\xa1Se educado!', 'raw_unicode_escape')
u'\xa1Se educado!'
关于python - 如何从 unicode 文字创建 unicode 实例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23666653/