c++ - 如何将 Unicode 字符串转换为 utf-8 或 utf-16 字符串？

如何将 Unicode 字符串转换为 utf-8 或 utf-16 字符串？我的VS2005项目使用的是Unicode字符集，而cpp中的sqlite提供

int sqlite3_open(
  const char *filename,   /* Database filename (UTF-8) */
  sqlite3 **ppDb          /* OUT: SQLite db handle */
);
int sqlite3_open16(
  const void *filename,   /* Database filename (UTF-16) */
  sqlite3 **ppDb          /* OUT: SQLite db handle */
);

用于打开文件夹。如何将字符串、CString 或 wstring 转换为 UTF-8 或 UTF-16 字符集？

非常感谢!

最佳答案

简答:

如果您使用 CString 或 wstring 等 Unicode 字符串，则无需转换。使用 sqlite3_open16()。您必须确保传递一个 WCHAR 指针(转换为 void *。看起来很蹩脚!即使这个库是跨平台的，我猜他们也可以定义一个依赖于平台的宽字符类型并且比 void *) 对 API 更不友好。例如对于 CString:(void*)(LPCWSTR)strFilename

较长的答案:

您没有要转换为 UTF8 或 UTF16 的 Unicode 字符串。您有一个使用给定编码在程序中表示的 Unicode 字符串:Unicode 本身不是二进制表示。编码说明 Unicode 代码点(数值)在内存中的表示方式(数字的二进制布局)。 UTF8 和 UTF16 是使用最广泛的编码。但是它们非常不同。

当 VS 项目说“Unicode 字符集”时，它实际上意味着“字符被编码为 UTF16”。因此，可以直接使用sqlite3_open16()。无需转换。字符存储在占用 16 位的 WCHAR 类型(与 char 相对)(回退标准 C 类型 wchar_t，在 Win32 上占用 16 位。在其他平台上可能不同平台。感谢您的更正，Checkers)。

还有一个细节您可能需要注意:UTF16 有两种形式:Big Endian 和 Little Endian。这就是这 16 位的字节顺序。您为 UTF16 提供的函数原型(prototype)并未说明使用了哪种顺序。但是假设 sqlite 使用与 Windows 相同的字节序(Little Endian IIRC。我知道顺序，但名称总是有问题:-))，你就很安全了。

编辑:对 Checkers 评论的回答:

UTF16 使用 16 位代码单元。在 Win32 下(仅在 Win32 上)，wchar_t 用于此类存储单元。诀窍是一些 Unicode 字符需要 2 个这样的 16 位代码单元的序列。它们被称为代理对。

与 UTF8 使用 1 到 4 字节序列表示 1 个字符的方式相同。然而 UTF8 与 char 类型一起使用。

关于c++ - 如何将 Unicode 字符串转换为 utf-8 或 utf-16 字符串？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/280347/

c++ - 如何将 Unicode 字符串转换为 utf-8 或 utf-16 字符串？

上一篇：c++ - 为 MSVC 预构建的 Boost 1.37

下一篇：c++ - 在 std::map 中设置所有值