c++ - 对 UTF-8 字符串进行排序?

标签 c++ unicode

我的 std::strings 是用 UTF-8 编码的,所以 std::string < 运算符不会剪切它。我如何比较 2 个 utf-8 编码的 std::strings?

它不切的地方是重音,é 出现在 z 之后,它不应该出现

谢谢

最佳答案

如果您不想要字典顺序(这是按字典顺序对 UTF-8 编码字符串进行排序的结果),那么您需要将 UTF-8 编码字符串解码为 UCS-2 或 UCS-4,如下所示合适的,并应用您选择的合适的比较函数。

重申一下,UTF-8 编码机制设计得很巧妙,如果您通过查看每个 8 位编码字节的数值进行排序,您将得到与以下内容相同的结果如果您首先将字符串解码为 Unicode 并比较每个代码点的数值。

更新:您更新的问题表明您想要一个比纯粹的字典排序更复杂的比较函数。您需要解码 UTF-8 字符串并比较解码后的字符。

关于c++ - 对 UTF-8 字符串进行排序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4611302/

相关文章:

c++ - 访问存储在 multimap -C++ 中的指针

c# - 在 C# .NET 应用程序上显示 ñ

unicode - 不区分大小写的存储和 Unicode 兼容性

python - 是否可以使用 SqlAlchemy 自动解码字符串?

__unicode__ 的 Python 字符串格式字符?

c++ - 密码程序建模-继承和其他OOP概念

c++ - unistd.h read() 正在读取更多数据然后被写入

c++ - 平滑步函数

c++ - 双链表删除带索引的节点 C++

r - ggsave 从 ggplot+gridExtra 中丢失 unicode 字符