encoding - 哪个编码错误将 "vóór"编码为 "v3/43/4r"?

标签 encoding

前段时间,看到了"v3/43/4r"的文字在文档中。

我知道它来自“vóór”(acute accent emphasises in Dutch),想知道是哪个编码错误导致了这个错误。

最佳答案

前段时间我编写了一个半自动进行此分析的程序(也许我会在某个时候发布它......)结果如下,有点想象力:

  • ó:是 U+00F3,在许多不同的编码(大多数 ISO-8859-* 和大多数西方 Windows-*)中占据相同的代码点 (0xF3)。
  • 在 CP850 中,codepint 0xF3 是 ¾ (U+00BE),即四分之三字符。在其他较少使用的代码页(CP775、CP856、CP857、CP858)中也是如此。
  • 当不能直接使用该字符时,¾ 有时会音译为 3/4。

你来了! “vóór”->“v¾¾r”->“v3/43/4r”。

第一部分 (ó -> ¾) 是西方 Windows 版本中 ANSI 与 OEM 代码页的常见损坏(在我的国家/地区 ANSI=Windows-1252,OEM=CP850)。您可以看到它使用记事本轻松创建文件,编写 vóór 并使用 type 将其转储到命令提示符中。

关于encoding - 哪个编码错误将 "vóór"编码为 "v3/43/4r"?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17654898/

相关文章:

java - 在 Java 中,是否有一种内置的或常见的 Stream 允许输出,比如说,5 位数据?

java - 在 Java 中将文件编码为 Base64

java - 源代码是否应该以 UTF-8 格式保存

Java,未知字符 ン □ Xml 响应

PHP ionCube 编码器文件不起作用

python - 引发包含 unicode 文字 (u"\u0410") 的异常时没有输出以赢得控制台

javascript - 还可以发送图像甚至文件的 Socket.io 聊天应用程序

php - 转换文件编码

encoding - PDFBox - 如何将编码从 WinAnsiEncoding 更改为 Unicode?

c++ - Visual Studio 强制使用没有签名文件编码的 UTF-8