c++ - 为什么 `std::basic_ifstream<char16_t>` 在 C++11 中不起作用?

标签 c++ c++11 unicode wchar-t char16-t

以下代码按预期工作。源代码、文件“file.txt”和“out.txt”都是用utf8编码的。但是,当我在 main() 的第一行将 wchar_t 更改为 char16_t 时,它不起作用。我已经用 -std=c++11 尝试了 gcc5.4 和 clang8.0。我的目标是用 char16_t 替换 wchar_t,因为 wchar_t 在 RAM 中占用两倍的空间。我认为这两种类型在 c++11 和更高版本的标准中同样得到很好的支持。我在这里想念什么?

#include<iostream>
#include<fstream>
#include<locale>
#include<codecvt>
#include<string>

int main(){
  typedef wchar_t my_char;

  std::locale::global(std::locale("en_US.UTF-8"));

  std::ofstream out("file.txt");
  out << "123正则表达式abc" << std::endl;
  out.close();

  std::basic_ifstream<my_char> win("file.txt");
  std::basic_string<my_char> wstr;
  win >> wstr;
  win.close();

  std::ifstream in("file.txt");
  std::string str;
  in >> str;
  in.close();

  std::wstring_convert<std::codecvt_utf8<my_char>, my_char> my_char_conv;
  std::basic_string<my_char> conv = my_char_conv.from_bytes(str);

  std::cout << (wstr == conv ? "true" : "false") << std::endl;

  std::basic_ofstream<my_char> wout("out.txt");
  wout << wstr << std::endl << conv << std::endl;
  wout.close();

  return 0;
}

编辑

修改后的代码不能用clang8.0编译。它使用 gcc5.4 编译,但在运行时崩溃,如 @Brian 所示。

最佳答案

各种流类需要一组定义才能运行。标准库只需要 char 的相关定义和对象和 wchar_t但不适用于 char16_tchar32_t .使用std::basic_ifstream<cT>需要以下内容或 std::basic_ofstream<cT> :

  1. std::char_traits<cT>指定字符类型的行为方式。我认为此模板专门用于 char16_tchar32_t .
  2. 二手std::locale需要包含 std::num_put<cT> 的实例facet 来格式化数字类型。这个方面可以被实例化和一个新的 std::locale可以创建包含它但标准不强制要求它存在于 std::locale 中对象。
  3. 二手std::locale需要包含方面的实例 std::num_get<cT>读取数字类型。同样,这个方面可以实例化,但默认情况下不需要存在。
  4. 方面std::numpunct<cT>需要专门化并投入使用std::locale处理小数点、千位分隔符和文本 bool 值。即使它没有真正被使用,它也会被数字格式化和解析函数引用。 char16_t 没有现成的特化或 char32_t .
  5. 方面std::ctype<cT>需要专门化并放入used facet中,以支持字符类型的扩大、缩小和分类。 char16_t 没有现成的特化或 char32_t .
    1. 方面std::codecvt<cT, char, std::mbstate_t>需要专门化并投入使用std::locale在外部字节序列和内部“字符”序列之间进行转换。 char16_t 没有现成的特化或 char32_t .

大多数方面都相当容易做到:它们只需要转发一个简单的转换或进行表查找。然而,std::codecvt方面往往相当棘手,特别是因为std::mbstate_t从标准 C++ 库的角度来看,它是一种不透明类型。

这一切都可以做到。自从我上次为字符类型进行概念验证以来已经有一段时间了。我花了大约一天的工作时间。当然,在我着手工作之前已经实现了 locales 和 IOStreams 库时,我就知道我需要做什么。要添加合理数量的测试而不是仅仅进行简单的演示,我可能需要一周左右的时间(假设我实际上可以专注于这项工作)。

关于c++ - 为什么 `std::basic_ifstream<char16_t>` 在 C++11 中不起作用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41315675/

相关文章:

php - 可以使用MySQL函数实现语言检测吗?

c++ - 返回一个节点类

c++ - malloc() 非确定性行为

c++ - 在 Visual C++ DLL 项目中包含 ntdsapi.h 和 activeds.h 时出错

c++ - 具有表达式模板的多维数组模板类

c++ - std::vector::push_back 是否有前置条件?

ruby-on-rails - ruby 正则表达式错误 : incompatible encoding regexp match (ASCII-8BIT regexp with UTF-8 string)

python - 如何在 mako 中正确转义输出(对于 XHTML)?

C++ 不完整的类类型指针

c++ - 在 G++ 4.8 中,typeof 仍然不能与 "::"一起使用