utf-8 - 有多少个有效的 utf8 字符？

我知道这有点模糊，因此就上下文而言，将其视为“您可以发推文的角色”或类似的内容。我的问题是支持 utf8 的浏览器或服务可以解析多少个有效的 unicode 字符，这样 utf8 浏览器就可以毫无问题地复制和粘贴它。

我想我不想要的是完整的字符空间，因为我知道其中很多是为命令字符或不会显示的保留字符保留的(除非我 super 错误!)。

最佳答案

UTF-8 并不是重要因素，因为所有标准 Unicode 编码(UTF-8、UTF-16、UTF-32)都以不同的方式对相同的字符空间进行编码。

从您的解释中我发现您不仅仅想要 1,112,064 个有效的 Unicode 代码点？

Unicode 6.0 和 ISO/IEC 10646:2010 定义了 109,449 个字符，但其中少数是您所说的“控制字符”。哪些属于或不属于该类别取决于您的计算方式。复制和粘贴可能会导致某些字符被视为彼此相同，或完全忽略，具体取决于操作系统和执行复制和粘贴的程序。

但是，由于 Unicode 是向前兼容的，因此某些系统将正确保留尚未分配的字符。毕竟，仅仅因为您运行的是 Windows XP，并且复制并粘贴了包含 2009 年之前尚未标准化的字符的文档，并不意味着您希望它们消失。通过这种思维方式，可能会有一百万左右额外的可能字符，尽管它们的视觉外观在某些地方可能难以区分。

关于utf-8 - 有多少个有效的 utf8 字符？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7984167/

utf-8 - 有多少个有效的 utf8 字符？

上一篇：Haskell 自定义数据类型

下一篇：JSF 使用图像按钮导航到外部 url