c++ - ICU 字节顺序标记 (BOM)

标签 c++ unicode endianness icu byte-order-mark

我正在使用 ICU 的 ustdio 函数将 UnicodeString 对象写入一系列编码的文件中,但是它似乎没有在 BOM 之前添加。

我的代码:

void write_file(const char* filename, UnicodeString &str) {

    UFILE* f = u_fopen(filename, "w", NULL, "UTF-16 LE");
    u_file_write(str.getTerminatedBuffer(), str.length() + 1, f);
    u_fclose(f);
}

int _tmain(int argc, _TCHAR* argv[])
{
    UnicodeString str(L"ΠαρθένωνΗ");

    write_file("test.txt", str);

    return 0;
}

当我将 LE 更改为 BE 时,文件编码确实发生了交换,但是没有 BOM,十六进制编辑器中的输出文件是:

A0 03 B1 03  C1 03 B8 03  AD 03 BD 03  C9 03 BD 03  97 03 00 00

注意:如果我将代码页设置为“UTF-16”,则会有一个 BOM,但是一旦我手动指定字节顺序,它就会消失。

或者,有没有一种方法可以将 UnicodeString 写入带有 BOM 的文件?

最佳答案

只是猜测,“UTF-16 LE”和“UTF-16 BE”旨在用于字节顺序已明确指定且在使用文件的上下文中不需要 BOM 的情况。

您应该能够编写自己的 BOM character '\ufeff'到文件。

关于c++ - ICU 字节顺序标记 (BOM),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7123925/

相关文章:

C++ 捕获无效内存异常

c++ - 关于二维绘图和绘画的任何好的教程?

c++ - 设计类聚合 - 堆栈分配与动态内存分配

c++ - 编译错误

visual-studio-2010 - wchar_t 在 Visual Studio 中是 2 字节,存储 UTF-16。 Unicode 感知应用程序如何处理 U+FFFF 以上的字符?

spring - PostGIS几何保存: "Invalid endian flag value encountered."

python - "ASCII-ish"Python 中一些 Unicode 字符的近似值

python - 一个有弹性的、实际工作的非 ascii 的 CSV 实现?

c、大端系统中的十六进制表示

assembly - 因此,在x86-64上它的字节序大吗?