utf-8 - 维基百科上汉字的编码是什么?

标签 utf-8 character-encoding cjk url-encoding

我当时在Wikipedia上查看汉字的编码,但无法弄清楚它们在使用什么。例如,“的”被编码为“%E7%9A%84”(see here)。那是三个字节,但是on this page描述的编码都没有使用三个字节来表示汉字。例如,UTF-8使用2个字节。

我基本上是想将这三个字节与实际字符匹配。关于编码可能有什么建议吗?

最佳答案


>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的

尽管Unicode将其编码为16位,但是utf8将其分解为3个字节。

关于utf-8 - 维基百科上汉字的编码是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5610021/

相关文章:

java - 获取请求的 UTF-8 JSF 编码参数

php - 编码重音符号 csv - PHP

emacs - 如何让Emacs显示汉字

iphone - 在 Objective C 中处理特殊字符 æ,ø,å - iphone

MySQL 欧洲字符

java - LayoutWrappingEncoder 的 LogBack 默认字符集?

javascript - 斯堪的纳维亚字符 åäö 在 AJAX 聊天框中消失

javascript - 日语字符的正则表达式

eclipse - 在Eclipse控制台输出中显示汉字

java - 无法在我的 servlet 中解码西里尔字符串