PHP - 'SORT_LOCALE_STRING' 的排序函数返回错误结果

标签 php mysql collation


我有一些 VARCHAR 类型的 MySQL 记录,排序规则为 utf8mb4_unicode_ci:

Tiếng Việt Nam
Tiếng Hoa Kỳ
Tiếng Anh
Tiếng Nhật
Tiếng Hàn Quốc
Tiếng Thái Lan

然后,我使用 PHP 按字母顺序对它们进行排序:

$languages = [
        'Tiếng Việt Nam',
        'Tiếng Hoa Kỳ',
        'Tiếng Anh',
        'Tiếng Nhật',
        'Tiếng Hàn Quốc',
        'Tiếng Thái Lan',
    ];
setlocale(LC_COLLATE, 'vi');
sort($languages, SORT_LOCALE_STRING);

像这样调用var_dump($languages)时的结果:

array (size=6)
  0 => string 'Tiếng Anh' (length=11)
  1 => string 'Tiếng Hoa Kỳ' (length=16)
  2 => string 'Tiếng Nhật' (length=14)
  3 => string 'Tiếng Thái Lan' (length=17)
  4 => string 'Tiếng Việt Nam' (length=18)
  5 => string 'Tiếng Hàn Quốc' (length=22)

'Tiếng Hàn Quốc'的顺序不正确,结果应如下所示:

array (size=6)
  0 => string 'Tiếng Anh' (length=11)
  1 => string 'Tiếng Hàn Quốc' (length=19)
  2 => string 'Tiếng Hoa Kỳ' (length=16)
  3 => string 'Tiếng Nhật' (length=14)
  4 => string 'Tiếng Thái Lan' (length=17)
  5 => string 'Tiếng Việt Nam' (length=18)

然后,我通过直接输入 MySQL(使用 HeidiSQL)将现有的 'Tiếng Hàn Quốc' 替换为另一个(也是 'Tiếng Hàn Quốc')。最终得到了预期的结果。

我认为这里有不同的事情:

string 'Tiếng Hàn Quốc'(length=22)
string 'Tiếng Hàn Quốc'(length=19)

问题是: 这里问题的根源是什么? 如何在 MySql 或 PHP 代码中解决此问题以获得预期结果,而无需在 MySQL 中查找并替换所有不正确的值?

谢谢。

最佳答案

简短回答:您需要此排序规则:utf8mb4_vietnamese_ci

长答案:字符串具有不同的 UTF-8 十六进制表示形式:

Tiếng Hàn Quốc (length=20)  54 69 C3AA CC81 6E 67 48 61 CC80 6E 51 75 C3B4 CC81 63
Tiếng Hàn Quốc (length=17)  54 69  E1BABF   6E 67 48  C3A0   6E 51 75  E1BB91   63

但是,有一个潜在的问题:

C3AA        234=x00EA  [ê]    L  LATIN SMALL LETTER E WITH CIRCUMFLEX
CC81        769=x0301  [́]  NSM  COMBINING ACUTE ACCENT
6E          110=x006E  [n]    L  LATIN SMALL LETTER N

E1BABF     7871=x1EBF  [ế]    L  LATIN SMALL LETTER E WITH CIRCUMFLEX AND ACUTE
6E          110=x006E  [n]    L  LATIN SMALL LETTER N

在第一个字符串中,ê 通过单个 utf8 字符(十六进制 C3AA)呈现,acute-n 通过一对 utf8 字符(非空格重音符号和字母 n)呈现。

在第一个字符串中,锐音符是字母 e 的一部分。我对 utf8 中的越南语编码一无所知,但如果锐音确实应该在字母 n 上,这听起来“错误”。

但是,无论如何,这两个字符串与排序规则 utf8mb4_vietnamese_ci(或 utf8_vietnamese_ci)比较相等。

关于PHP - 'SORT_LOCALE_STRING' 的排序函数返回错误结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45419951/

相关文章:

php - 无法在 codeigniter 中显示我的数据库

php - 跨多个网页播放媒体

php - 如何编辑表单和脚本以上传两个文件而不是一个文件到服务器,文件名到mysql

php - CodeIgniter:从所有文件夹中删除 index.html 是否安全?

php - 将值(value)从一列转移到另一列

mysql - 如何在 MySQL CASE 表达式中使用 "OR"条件?

php - 无法使用 PHP 更新数据并将数据插入数据库

mysql - 如何在 Django 中设置 collat​​ion_connection?

mysql - 为什么我不能在这个 mysql 字段中存储 4 字节的表情符号?

mysql - 哪个 UTF8 - phpMyAdmin 可以正确显示中文、俄文、阿拉伯文?