c++ - VC++ 编译器/源字符集 :utf-8 doesn't work

标签 c++ windows visual-studio utf-8 encode

当我在 Visual Studio 中试验 utf-8 下的代码单元时,我遇到了很多陷阱:

  1. 默认情况下,VS 保存源文件的系统区域相关编码,对我来说,它是 GB2312(代码页 936,中文编码)。

    解决方法:我用另存为,用UTF-8保存文件,没有签名。

  2. 然后我发现默认情况下,编译器也使用系统区域相关编码解释源文件,它仍然是 GB2312,所以我得到了令人费解的警告和语法错误。

    解决方法:我用/source-charset:utf-8编译,没有warning和error。但是大小结果是2(GB2312中的'知'是用2个编码单元编码的)。但是在utf-8下应该是3

'知道' Unicode 引用 https://unicode-table.com/en/77E5/

(我认为可以使用当前系统编码和 utf-8 中都存在但代码单元大小不同的任何字符来进行类似测试。)

代码:

#include <iostream>
#include <string>
using namespace std;

    int main(){
        string s = "知";
        cout << s.size() <<endl;
        cout << s << endl;
    }

此外,Windows cmd 和 powershell 也使用系统区域相关编码(在 cmd 中键入 chcp)。所以我无法打印像 ə 这样的字符。

所以我需要注意三件事:

  1. 源文件编码
  2. 编译器是否按预期解释源文件
  3. 即使满足 1. 和 2.,cmd 也可能无法显示字符。

除此之外,我还有一些困惑源于这次经历:

  1. 为什么 Windows 会这样?它可以用 utf-8 设置所有内容吗?我将相同的文件复制到 Mac,一切都按预期工作。并且设置 Mac 的终端编码非常容易。

  2. 我发现一些帖子说原因是一些编码标准(比如这个 GB2312)是在 utf-8 出现之前创建的。而且其中许多与 utf-8 不兼容。因此它继续用于兼容性。

    但我想知道不兼容是如何发生的?例如我下载NotePad++并安装所有语言包。我的系统编码是GB2312,但我还是可以把NotePad++的显示语言改成日文,显示效果不错。不是 ???? 这样的东西。

最佳答案

术语“源字符集”在这里并非巧合。 C++ 标准明确区分(基本)源字符集(96 个常用字符,全部以纯 ASCII 形式找到)和执行字符集。

由于您使用 UTF-8 作为源字符集,知道 被映射到 \u77E5

但是,在运行时,您使用的是执行字符集。 VC++的/source-charset选项不影响VC++的执行字符集;为此,有一个 /execution-charset

但正如@Matteo Italia 已经指出的那样,众所周知,VC++ 运行时在涉及 UTF-8 I/O 时有点不稳定。 std::string.size 应该有效,但 std::cout 可能无效。

关于c++ - VC++ 编译器/源字符集 :utf-8 doesn't work,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50363707/

相关文章:

C++ 出现 LNK2019 错误,即使没有循环依赖,也没有包含两次

c++ - Visual Studio 2012 + qt + clang,可以吗?

c++ - 禁用 Windows 中的文件夹虚拟化

c# .cs 文件,在 Visual Studio 的评论中带有 http 相对链接

windows - 如何阻止在 Windows 应用商店应用程序中将文本粘贴到文本框中?

windows - 将消息从 "CMD"放入 IBM Websphere MQ 时出现问题

c# - 删除数据表中的主键

c++ - 数组、I/O 文件和标准偏差 (c++)

c++ - 构建 C/C++ 库以将其链接到 Delphi 应用程序中......如何?

c++ - std::ofstream == NULL 不会为 -std=gnu++11 编译,任何解决方法?