如何将 Unicode 字符串转换为 utf-8 或 utf-16 字符串? 我的VS2005项目使用的是Unicode字符集,而cpp中的sqlite提供
int sqlite3_open(
const char *filename, /* Database filename (UTF-8) */
sqlite3 **ppDb /* OUT: SQLite db handle */
);
int sqlite3_open16(
const void *filename, /* Database filename (UTF-16) */
sqlite3 **ppDb /* OUT: SQLite db handle */
);
用于打开文件夹。 如何将字符串、CString 或 wstring 转换为 UTF-8 或 UTF-16 字符集?
非常感谢!
最佳答案
简答:
如果您使用 CString 或 wstring 等 Unicode 字符串,则无需转换。使用 sqlite3_open16()。
您必须确保传递一个 WCHAR 指针(转换为 void *
。看起来很蹩脚!即使这个库是跨平台的,我猜他们也可以定义一个依赖于平台的宽字符类型并且比 void *
) 对 API 更不友好。例如对于 CString:(void*)(LPCWSTR)strFilename
较长的答案:
您没有要转换为 UTF8 或 UTF16 的 Unicode 字符串。您有一个使用给定编码在程序中表示的 Unicode 字符串:Unicode 本身不是二进制表示。编码说明 Unicode 代码点(数值)在内存中的表示方式(数字的二进制布局)。 UTF8 和 UTF16 是使用最广泛的编码。但是它们非常不同。
当 VS 项目说“Unicode 字符集”时,它实际上意味着“字符被编码为 UTF16”。因此,可以直接使用sqlite3_open16()。无需转换。字符存储在占用 16 位的 WCHAR 类型(与 char
相对)(回退标准 C 类型 wchar_t
,在 Win32 上占用 16 位。在其他平台上可能不同平台。感谢您的更正,Checkers)。
还有一个细节您可能需要注意:UTF16 有两种形式:Big Endian 和 Little Endian。这就是这 16 位的字节顺序。您为 UTF16 提供的函数原型(prototype)并未说明使用了哪种顺序。但是假设 sqlite 使用与 Windows 相同的字节序(Little Endian IIRC。我知道顺序,但名称总是有问题:-)),你就很安全了。
编辑:对 Checkers 评论的回答:
UTF16 使用 16 位代码单元。在 Win32 下(仅在 Win32 上),wchar_t
用于此类存储单元。诀窍是一些 Unicode 字符需要 2 个这样的 16 位代码单元的序列。它们被称为代理对。
与 UTF8 使用 1 到 4 字节序列表示 1 个字符的方式相同。然而 UTF8 与 char
类型一起使用。
关于c++ - 如何将 Unicode 字符串转换为 utf-8 或 utf-16 字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/280347/