string - 字符、代码点、字形和字素之间有什么区别?

标签 string unicode terminology

试图理解现代 Unicode 的微妙之处让我很头疼。特别是,代码点、字符、字形和字素之间的区别 - 在最简单的情况下,当使用 ASCII 字符处理英语文本时,这些概念彼此之间具有一对一的关系- 给我带来了麻烦。

了解这些术语如何在 Matthias Bynens 的 JavaScript has a unicode problem 等文档中使用或维基百科关于 Han unification 的文章,我发现这些概念不是同一件事,将它们混为一谈是危险的,但我有点难以理解每个术语的含义。

Unicode 联盟提供 glossary解释这个东西,但它充满了这样的“定义”:

Abstract Character. A unit of information used for the organization, control, or representation of textual data. ...

...

Character. ... (2) Synonym for abstract character. (3) The basic unit of encoding for the Unicode character encoding. ...

...

Glyph. (1) An abstract form that represents one or more glyph images. (2) A synonym for glyph image. In displaying Unicode character data, one or more glyphs may be selected to depict a particular character.

...

Grapheme. (1) A minimally distinctive unit of writing in the context of a particular writing system. ...

这些定义中的大多数都具有听起来非常学术和正式的品质,但缺乏有意义的品质,或者将定义问题推迟到标准的另一个术语表条目或部分。

因此,我寻求那些比我更有学识的人的神秘智慧。这些概念之间究竟有何不同,在什么情况下它们彼此之间不会存在一对一的关系?

最佳答案

  • 角色是一个重载术语,可以表示多种含义。

  • 代码点是信息的原子单位。 文本是一个代码点序列。每个代码点都是一个由 Unicode 标准赋予含义的数字。

  • 代码单元是编码代码点部分的存储单元。在 UTF-8 中这意味着 8 位,在 UTF-16 中这意味着 16 位。单个代码单元可以表示完整的代码点或代码点的一部分。例如,雪人字形 () 是单个代码点,但有 3 个 UTF-8 代码单元和 1 个 UTF-16 代码单元。

  • 字素是一个或多个代码点的序列,它们显示为单个图形单元,读者将其识别为书写系统的单个元素。例如,aä 都是字素,但它们可能由多个代码点组成(例如 ä 可能是两个代码点,一个代表基本字符 a 后跟一个用于分音符号的字符;但还有一个替代的、传统的、单个代码点来表示该字素)。某些代码点永远不是任何字素的一部分(例如零宽度非连接符或方向覆盖)。

  • 字形是一种图像,通常存储在字体(字形的集合)中,用于表示字素或其部分。字体可以将多个字形组合成单个表示形式,例如,如果上面的 ä 是单个代码点,则字体可以选择将其呈现为两个独立的、空间重叠的字形。对于 OTF,字体的 GSUB 和 GPOS 表包含实现此功能的替换和定位信息。字体也可能包含同一字素的多个替代字形。

关于string - 字符、代码点、字形和字素之间有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27331819/

相关文章:

c++ - GCC、std::ctype 特化和流

terminology - 无状态与有状态

java - 正则表达式替换预定义字符范围之前的所有内容 - Java

Java 将敏感的 'key' 存储为 String 或 char[]?

r - 检测有序字符串的序列并使用 R 对它们进行分组

database - 我知道我知道这个数据库术语,我就是一辈子都记不住

graph - 连接两点的圆盘不包含其他点的图形名称?

JavaScript 正则表达式

mysql - 请通过 MySQL 排序规则告诉我

php - strlen() 和 UTF-8 编码