在下面的代码中,ü
不是单个 Unicode 字符 U+00FC,而是由两个 Unicode 字符组成的单个字素簇,即纯 ASCII u
U +0075 后跟组合分音符 U+0308。
fmt.Println("Jürgen Džemal")
fmt.Println("Ju\u0308rgen \u01c5emel")
如果我运行它 in the go playground ,它按预期工作。
如果我在 MS Windows 10“命令提示符”窗口中运行它,它不会在视觉上将组合字符与前一个字符组合起来。 但是,当我将文本剪切并粘贴到此处时,它会正确显示:
C:\> ver
Microsoft Windows [Version 10.0.17134.228]
C:\> test
Jürgen Džemal
Jürgen Džemel
在屏幕上的“命令提示符”窗口中,它看起来更像:
Ju¨rgen Džemel
将代码页 (chcp) 从 850 更改为 65001 没有任何区别。更改字体(Consolas、Courier 等)没有任何区别。
过去,我遇到过一些问题,这些问题的根本原因是 Microsoft 要求 Windows 程序使用不同的 API 将字符输出到 STDOUT,具体取决于 STDOUT 是附加到控制台还是附加到文件。不知道这是否是同一问题的不同表现。
我可以做些什么来使这个 Unicode 字素簇正确显示吗?
最佳答案
- Windows 控制台 (conhost.exe) 不支持组合代码。您必须首先规范化为使用预组合字符的等效字符串。
- 您可以使用
golang.org/x/text/unicode/norm
进行标准化(例如norm.NFC.String("Jürgen Džemal")
)
我试过了
s := "Ju\u0308rgen \u01c5emel"
fmt.Println(s) // dieresis not combined with u by conhost.exe
s = norm.NFC.String(s)
fmt.Println(s) // shows correctly
输出看起来像这样
或者,对于拥有极其复杂的屏幕阅读器的视障人士 - 有点像这样:
Ju¨rgen Džemel
Jürgen Džemel
请注意,Unicode 有四种不同的标准化形式,但 NFC 是互联网上网页中使用最多的,也适合这种情况。
此包中还有其他方法可能更有效或更有用
我读到正在使用的视觉字符只能使用组合字符以 Unicode 表示。换句话说,没有预先组成的字符。需要采取更彻底的方法来对这些进行适当的处理。本质上,Unicode(或者更准确地说是人类语言及其版式)的复杂性几乎是无穷无尽的。有时我觉得也是这样。
引用文献
-
For example, several characters used in writing Lithuanian have double diacritics, as they have only decomposed forms. An example is lowercase U with macron and tilde ("ū̃", U+016b U+0303, where the first code point is a lowercase U with macron and the second is a combining acute accent).
关于Go Unicode 组合字符(字素簇)和 MS Windows 控制台 cmd.exe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52006307/