unicode - 为什么 Unicode 表中有漏洞?

标签 unicode utf-8 character-encoding standards

给定 Unicode 表的 this area,例如:

  ...
𝑎    U+1D44E Dec:119886       MATHEMATICAL ITALIC SMALL A 𝑎
𝑏    U+1D44F Dec:119887       MATHEMATICAL ITALIC SMALL B 𝑏
𝑐    U+1D450 Dec:119888       MATHEMATICAL ITALIC SMALL C 𝑐
𝑑    U+1D451 Dec:119889       MATHEMATICAL ITALIC SMALL D 𝑑
𝑒    U+1D452 Dec:119890       MATHEMATICAL ITALIC SMALL E 𝑒
𝑓    U+1D453 Dec:119891       MATHEMATICAL ITALIC SMALL F 𝑓
𝑔    U+1D454 Dec:119892       MATHEMATICAL ITALIC SMALL G 𝑔
𝑖    U+1D456 Dec:119894       MATHEMATICAL ITALIC SMALL I 𝑖 # what?!
𝑗    U+1D457 Dec:119895       MATHEMATICAL ITALIC SMALL J 𝑗
𝑘    U+1D458 Dec:119896       MATHEMATICAL ITALIC SMALL K 𝑘
𝑙    U+1D459 Dec:119897       MATHEMATICAL ITALIC SMALL L 𝑙
𝑚    U+1D45A Dec:119898       MATHEMATICAL ITALIC SMALL M 𝑚
𝑛    U+1D45B Dec:119899       MATHEMATICAL ITALIC SMALL N 𝑛
𝑜    U+1D45C Dec:119900       MATHEMATICAL ITALIC SMALL O 𝑜
  ...
我自然希望 u+1d455 是 MATHEMATICAL ITALIC SMALL H 。但它似乎没有在 any table I look around 上定义。
为什么 Unicode 表中有漏洞? (还有 U+1d49d、u+1d53a 等)
有什么办法可以填满它们吗?

[编辑]:这些链接确实说明:

The "holes" in the alphabetic ranges are filled by previously defined characters in the Letter like Symbols block shown below.



The Unicode Consortium adds new codepoints to the standard all the time. Visit their website to find out about pending codepoints and whether this one is in the pipe. The following table shows typical representations of how the codepoint would look, if it existed. This may help you when debugging, but is not of real use otherwise.


但我只是......不明白他们的意思:\

最佳答案

从评论中(伙计们),我了解到这些漏洞是由于在添加整个字母表时已经在 Unicode 中分配了一些字符。
例如:之前 U+1D4* MATHEMATICAL ITALIC SMALL *标识符已定义,在表中已经被称为

ℎ    U+210E Dec:008462        PLANCK CONSTANT ℎ # here it is
所以为了保持编号的一致性而不是重复 id,在 U+1D455 处插入了一个孔位置。

同样,被称为 U+212C SCRIPT CAPITAL B而不是 U+1D49D - - - reservedMATHEMATICAL SCRIPT CAPITAL字母家庭。
同样,来自 MATHEMATICAL DOUBLE-STRUCK CAPITAL字母家族是不是 U+1D53A因为它已经被称为 U+2102 DOUBLE-STRUCK CAPITAL C .
这是一个艰难的选择,必须完全处理复古兼容性、一致性和可靠性:)

关于unicode - 为什么 Unicode 表中有漏洞?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47206070/

相关文章:

PostgreSQL - 替换表列中特定字符的所有实例

python - 不要 argparse 从命令行读取 unicode?

c++ - 为什么字符数组接受 C++ 中的非 ASCII 字符?

python - 在 unicode 中,Pytest 无法生成 XML 输出

用于 utf-8 的 Python json.loads

mysql - mysqldump如何将二进制数据写入文件进行MySQL逻辑备份?

java - 遗留字符编码

java - 如何将 HTTP 请求正文写入 Java Web 应用程序中的文件?

java - Spring Boot import.sql 编码问题

java - 调试 MySQL 字符集错误