php - 是否可以对整个 SQL 语句进行 utf8_decode 以避免 utf-8/utf8mb4 问题?

标签 php mysql utf-8 character-encoding utf8mb4

我有一个站点,它接受来自用户的基于表单的输入并将其存储到 mysql(i) 数据库中。 99% 的用户来自美国。

如果用户使用移动设备并认为在其中一个表单字段中使用表情符号会很有趣,则生成的 SQL 会在尝试 UPDATE 或 INSERT 时导致失败。这是由于表情符号在 utf-8 之外,因此用户体验和数据库之间的编码不匹配。我相信我了解根本问题。

我使用的是 mysql 5.5,所以我实际上可以支持 utf8mb4 字符集——但我还需要一段时间才能解决这个问题。

与此同时,这样做是否可以/安全(在 PHP 中):

$sql = "INSERT INTO my_table ... *long insert statement across two dozen rows*";
$sql = utf8_decode($sql);
$db->sql_query($sql);

那么 - 简单地将整个 SQL 语句强制为 utf-8?我意识到表情符号字符和其他一些可能会转换为“?” -- 但只要声明本身没有被破坏或者我没有丢失用户的正常文本输入,我就可以接受。

在我可以将表的模式转换为使用 utf8mb4 之前,这个想法作为临时修复有任何问题吗?

编辑:从数据库返回的错误如下所示:

"Incorrect string value: '\xF0\x9F\x99\x8A...' for column..."

最佳答案

一些事实:

  • 许多表情符号在 Unicode 中的 BMP(基本多语言平面)之上,即在代码点 U+FFFF 之上
  • MySQL 的utf8 字符集只能表示BMP,它实际上不是完整的UTF-8 (yay MySQL)
  • 对于完整的 Unicode 支持,MySQL 有 utf8mb4
  • 当尝试在 utf8 字符集列中存储 BMP 之上的字符时,应该没有实际错误,MySQL 将简单地丢弃不受支持的字符(yay silent data corruption)
  • utf8_decode 不会“强制一切为 UTF-8”,而是将字符串从 UTF-8 编码转换为 ISO-8859-1(“Latin-1 ") 编码;这将丢弃比表情符号更多的字符

所以在我看来,如果您在某个时候抛出实际错误,那么您似乎还有其他一些潜在问题。也许您认为您正在使用 UTF-8 与您的数据库对话,而实际上并非如此。您需要通过 mysqli_set_charset 设置您的连接字符集

“过滤掉”你的数据库不支持的字符应该已经发生了,MySQL 将简单地丢弃这些字符。如果你想在 PHP 中手动执行此操作,你可以这样做以过滤掉 U+FFFF 以上的所有字符:

$string = preg_replace_callback('/./u', function (array $m) {
    return strlen($m[0]) > 4 ? null : $m[0];
}, $string);

总体:支持 utf8mb4 大约需要两分钟。您只需要将您的表/列字符集设置为 utf8mb4 并对您的 mysqli 连接执行相同的操作。如果您随后将实际的 UTF-8 数据从您的 PHP 应用程序发送到您的数据库,您将很好地存储表情符号。

关于php - 是否可以对整个 SQL 语句进行 utf8_decode 以避免 utf-8/utf8mb4 问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27771761/

相关文章:

PHP 应用程序未将数据保存到 MySQL 数据库

mysql - PHP 数组和对象在一起 - 坏/好的做法?

php - 日语文本输出为问号或 goobledy gook

MySQL 使用 utf8_general_ci 对 Ä 和 Ö 进行排序

android - 如何将 Shift-JIS 编码的字符串转换为 UTF-8?

javascript - PHP传递参数给新的字符串(学习)

php - 写入文本文件并更新数据库

PHP Composer PSR-4 自动加载和子命名空间,未找到类

MySQL/MariaDB - 查询通过引用表在表中搜索

php - 无法在 mysql_fetch_array 中获取循环以在单独的行上打印