utf-8 - 维基百科上汉字的编码是什么？

标签 utf-8 character-encoding cjk url-encoding

我当时在Wikipedia上查看汉字的编码，但无法弄清楚它们在使用什么。例如，“的”被编码为“％E7％9A％84”(see here)。那是三个字节，但是on this page描述的编码都没有使用三个字节来表示汉字。例如，UTF-8使用2个字节。

我基本上是想将这三个字节与实际字符匹配。关于编码可能有什么建议吗？

最佳答案


>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的

尽管Unicode将其编码为16位，但是utf8将其分解为3个字节。

关于utf-8 - 维基百科上汉字的编码是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5610021/

上一篇：ruby-on-rails - 在不干扰 ruby on rails 进程的情况下，在后台发送电子邮件的最佳方法是什么？

下一篇：regex - 从字符串中提取第一个单词 - 正则表达式

相关文章：

java - 获取请求的 UTF-8 JSF 编码参数

php - 编码重音符号 csv - PHP

emacs - 如何让Emacs显示汉字

iphone - 在 Objective C 中处理特殊字符 æ,ø,å - iphone

MySQL 欧洲字符

java - LayoutWrappingEncoder 的 LogBack 默认字符集？

javascript - 斯堪的纳维亚字符 åäö 在 AJAX 聊天框中消失

javascript - 日语字符的正则表达式

eclipse - 在Eclipse控制台输出中显示汉字

java - 无法在我的 servlet 中解码西里尔字符串

utf-8 - 维基百科上汉字的编码是什么？

上一篇：ruby-on-rails - 在不干扰 ruby​​ on rails 进程的情况下，在后台发送电子邮件的最佳方法是什么？

下一篇：regex - 从字符串中提取第一个单词 - 正则表达式

上一篇：ruby-on-rails - 在不干扰 ruby on rails 进程的情况下，在后台发送电子邮件的最佳方法是什么？