Go Unicode 组合字符(字素簇)和 MS Windows 控制台 cmd.exe

标签 go unicode windows-10 windows-console

在下面的代码中,ü不是单个 Unicode 字符 U+00FC,而是由两个 Unicode 字符组成的单个字素簇,即纯 ASCII u U +0075 后跟组合分音符 U+0308。

fmt.Println("Jürgen Džemal")
fmt.Println("Ju\u0308rgen \u01c5emel")

如果我运行它 in the go playground ,它按预期工作。

如果我在 MS Windows 10“命令提示符”窗口中运行它,它不会在视觉上将组合字符与前一个字符组合起来。 但是,当我将文本剪切并粘贴到此处时,它会正确显示:

C:\> ver

Microsoft Windows [Version 10.0.17134.228]

C:\> test
Jürgen Džemal
Jürgen Džemel

在屏幕上的“命令提示符”窗口中,它看起来更像:

Ju¨rgen Džemel

将代码页 (chcp) 从 850 更改为 65001 没有任何区别。更改字体(Consolas、Courier 等)没有任何区别。

过去,我遇到过一些问题,这些问题的根本原因是 Microsoft 要求 Windows 程序使用不同的 API 将字符输出到 STDOUT,具体取决于 STDOUT 是附加到控制台还是附加到文件。不知道这是否是同一问题的不同表现。

我可以做些什么来使这个 Unicode 字素簇正确显示吗?

最佳答案

eryksunPeter评论了,

  • Windows 控制台 (conhost.exe) 不支持组合代码。您必须首先规范化为使用预组合字符的等效字符串。
  • 您可以使用golang.org/x/text/unicode/norm进行标准化(例如 norm.NFC.String("Jürgen Džemal") )

我试过了

s := "Ju\u0308rgen \u01c5emel"
fmt.Println(s)              // dieresis not combined with u by conhost.exe
s = norm.NFC.String(s)
fmt.Println(s)              // shows correctly

输出看起来像这样

Ju¨rgen Džemel \n Jürgen Džemel

或者,对于拥有极其复杂的屏幕阅读器的视障人士 - 有点像这样:

Ju¨rgen Džemel
Jürgen Džemel

请注意,Unicode 有四种不同的标准化形式,但 NFC 是互联网上网页中使用最多的,也适合这种情况。

此包中还有其他方法可能更有效或更有用

我读到正在使用的视觉字符只能使用组合字符以 Unicode 表示。换句话说,没有预先组成的字符。需要采取更彻底的方法来对这些进行适当的处​​理。本质上,Unicode(或者更准确地说是人类语言及其版式)的复杂性几乎是无穷无尽的。有时我觉得也是这样。

引用文献

关于Go Unicode 组合字符(字素簇)和 MS Windows 控制台 cmd.exe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52006307/

相关文章:

json - 向从数据库中获取的电话号码发送短信。代码不工作

unicode - 如何在网页上使用Unicode符号?

python - 为什么 bash (WSL) 使用 w3m 作为默认浏览器?

networking - NPCap 和 Windows 10

wpf - 适用于经典 WPF 桌面应用程序的 Windows 10/8 开始菜单磁贴图标大小

go - Go 中的库依赖

go - *string 和 sql.NullString 之间的区别

mysql - Go - 连接到外部 mysql 数据库

python - 两个看似相同的 unicode 字符串在使用 repr() 时结果是不同的,但我该如何解决这个问题?

php - 使用 PHP 和 MySql 中的印地语 (Unicode) 内容将数据导出到 Excel