我当时在Wikipedia上查看汉字的编码,但无法弄清楚它们在使用什么。例如,“的”被编码为“%E7%9A%84”(see here)。那是三个字节,但是on this page描述的编码都没有使用三个字节来表示汉字。例如,UTF-8使用2个字节。
我基本上是想将这三个字节与实际字符匹配。关于编码可能有什么建议吗?
最佳答案
>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的
尽管Unicode将其编码为16位,但是utf8将其分解为3个字节。
关于utf-8 - 维基百科上汉字的编码是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5610021/