c++ - 如何将 Unicode 字符串转换为 utf-8 或 utf-16 字符串?

标签 c++ unicode utf-8 character-encoding utf-16

如何将 Unicode 字符串转换为 utf-8 或 utf-16 字符串? 我的VS2005项目使用的是Unicode字符集,而cpp中的sqlite提供

int sqlite3_open(
  const char *filename,   /* Database filename (UTF-8) */
  sqlite3 **ppDb          /* OUT: SQLite db handle */
);
int sqlite3_open16(
  const void *filename,   /* Database filename (UTF-16) */
  sqlite3 **ppDb          /* OUT: SQLite db handle */
);

用于打开文件夹。 如何将字符串、CString 或 wstring 转换为 UTF-8 或 UTF-16 字符集?

非常感谢!

最佳答案

简答:

如果您使用 CString 或 wstring 等 Unicode 字符串,则无需转换。使用 sqlite3_open16()。 您必须确保传递一个 WCHAR 指针(转换为 void *。看起来很蹩脚!即使这个库是跨平台的,我猜他们也可以定义一个依赖于平台的宽字符类型并且比 void *) 对 API 更不友好。例如对于 CString:(void*)(LPCWSTR)strFilename

较长的答案:

您没有要转换为 UTF8 或 UTF16 的 Unicode 字符串。您有一个使用给定编码在程序中表示的 Unicode 字符串:Unicode 本身不是二进制表示。编码说明 Unicode 代码点(数值)在内存中的表示方式(数字的二进制布局)。 UTF8 和 UTF16 是使用最广泛的编码。但是它们非常不同。

当 VS 项目说“Unicode 字符集”时,它实际上意味着“字符被编码为 UTF16”。因此,可以直接使用sqlite3_open16()。无需转换。字符存储在占用 16 位的 WCHAR 类型(与 char 相对)(回退标准 C 类型 wchar_t,在 Win32 上占用 16 位。在其他平台上可能不同平台。感谢您的更正,Checkers)。

还有一个细节您可能需要注意:UTF16 有两种形式:Big Endian 和 Little Endian。这就是这 16 位的字节顺序。您为 UTF16 提供的函数原型(prototype)并未说明使用了哪种顺序。但是假设 sqlite 使用与 Windows 相同的字节序(Little Endian IIRC。我知道顺序,但名称总是有问题:-)),你就很安全了。

编辑:对 Checkers 评论的回答:

UTF16 使用 16 位代码单元。在 Win32 下(在 Win32 上),wchar_t 用于此类存储单元。诀窍是一些 Unicode 字符需要 2 个这样的 16 位代码单元的序列。它们被称为代理对。

与 UTF8 使用 1 到 4 字节序列表示 1 个字符的方式相同。然而 UTF8 与 char 类型一起使用。

关于c++ - 如何将 Unicode 字符串转换为 utf-8 或 utf-16 字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/280347/

相关文章:

spring-mvc - 当 url 中出现外语字符 (Òشكيل) 时,Spring 应用程序不会重定向

perl - XML::Twig keep_encoding 如何工作?

java - 将字节数组写入 UTF8 编码的文件

c++ - 你如何在 Linux 上用 C++ 播放或录制音频(到 .WAV)?

python-2.7 - Scrapy 从 unicode 转换为 utf-8

java - 通过 SMPP 发送 Unicode 短信

python - TensorBoard 元数据 UnicodeDecodeError

c++ - 在 Qt 中获取耗时

c++ - 设置 eclipse 链接器以编译和运行 GLFW 应用程序 - 如何?

c++ - 在 C++ 中不使用 char 类型定义 '999e999' 值