mysql - utf8 数据在 mysql 中看起来不错,但在 rails 中损坏了

标签 mysql ruby-on-rails utf-8

我正在为我的一位使用 Mac 的同事设置 Rails 环境(以防万一)。我已经从我们的实时 mysql 数据库中提取数据,并使用该数据创建了一个本地开发数据库。如果我打开 mysql 控制台,并查看在其名称字段中具有扩展字符集字符的记录的数据,那么它看起来很好。然而,在 rails 控制台(以及在 rails 生成的网页中)编码被破坏:例如,endash 被替换为“–”。

我所知道的唯一与此相关的 rails 配置选项在 config/database.yml 中。我目前有这套:

encoding: utf8
collation: utf8_general_ci

例如,这使得它在我的机器上运行良好。但是就像我说的那样,它在我同事的机器上不起作用。有什么想法吗?

编辑 1:在实时服务器上,我从那里复制数据,字符集信息如下所示:

mysql> show variables like 'char%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | latin1                     | 
| character_set_connection | latin1                     | 
| character_set_database   | latin1                     | 
| character_set_filesystem | binary                     | 
| character_set_results    | latin1                     | 
| character_set_server     | latin1                     | 
| character_set_system     | utf8                       | 
| character_sets_dir       | /usr/share/mysql/charsets/ | 
+--------------------------+----------------------------+

编辑 2:为了回应@eggyal 的评论,我已经完成了几个 mysqldumps,这非常有启发性。这是第一个转储:

$ mysqldump -u root -h127.0.0.1  dbname lessons --where="id=79510"
-- MySQL dump 10.11
--
-- Host: 127.0.0.1    Database: e_learning_resource_v3
-- ------------------------------------------------------
-- Server version   5.0.32-Debian_7etch4-log

/*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;
/*!40101 SET @OLD_CHARACTER_SET_RESULTS=@@CHARACTER_SET_RESULTS */;
/*!40101 SET @OLD_COLLATION_CONNECTION=@@COLLATION_CONNECTION */;
/*!40101 SET NAMES utf8 */;
/*!40103 SET @OLD_TIME_ZONE=@@TIME_ZONE */;
/*!40103 SET TIME_ZONE='+00:00' */;
/*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */;
/*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;
/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;
/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;

--
-- Table structure for table `lessons`
--

DROP TABLE IF EXISTS `lessons`;
CREATE TABLE `lessons` (
  `id` int(11) NOT NULL auto_increment,
  `name` varchar(255) default NULL,
  `description` text,
  `user_id` int(11) default NULL,
  `created_at` datetime default NULL,
  `privacy` int(11) default '1',
  `is_official` tinyint(1) default '0',
  `is_readonly` tinyint(1) default NULL,
  `comments_allowed` tinyint(1) default NULL,
  `hours` int(11) default NULL,
  `sessions` int(11) default NULL,
  `updated_at` datetime default NULL,
  `custom_menu_swf` varchar(255) default NULL,
  `pupil_liked_at` datetime default NULL,
  `user_liked_at` datetime default NULL,
  `pupil_favorite_count` int(11) default '0',
  `user_favorite_count` int(11) default '0',
  `teacher_notes` text,
  `pupil_notes` text,
  PRIMARY KEY  (`id`),
  KEY `user_id` (`user_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

--
-- Dumping data for table `lessons`
--
-- WHERE:  id=79510

LOCK TABLES `lessons` WRITE;
/*!40000 ALTER TABLE `lessons` DISABLE KEYS */;
INSERT INTO `lessons` VALUES (79510,'Jazz–Man',NULL,NULL,'2014-04-03 12:08:05',1,0,NULL,NULL,NULL,NULL,'2014-04-03 12:08:05',NULL,NULL,NULL,0,0,NULL,NULL);
/*!40000 ALTER TABLE `lessons` ENABLE KEYS */;
UNLOCK TABLES;
/*!40103 SET TIME_ZONE=@OLD_TIME_ZONE */;

/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;
/*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;
/*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */;
/*!40101 SET CHARACTER_SET_CLIENT=@OLD_CHARACTER_SET_CLIENT */;
/*!40101 SET CHARACTER_SET_RESULTS=@OLD_CHARACTER_SET_RESULTS */;
/*!40101 SET COLLATION_CONNECTION=@OLD_COLLATION_CONNECTION */;
/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;

-- Dump completed on 2014-04-03 11:16:42

所以,这只是一个直接的 mysqldump,它在“INSERT INTO lessons”行中有损坏的字符(Jazz–Man)。

我用一些额外的选项再次执行此操作,转储文件中的数据看起来没问题:

$ mysqldump -u root -h127.0.0.1  dbname lessons --extended-insert --single-transaction --default-character-set=latin1 --skip-set-charset --where="id=79510" 
-- MySQL dump 10.11
--
-- Host: 127.0.0.1    Database: e_learning_resource_v3
-- ------------------------------------------------------
-- Server version   5.0.32-Debian_7etch4-log
/*!40103 SET @OLD_TIME_ZONE=@@TIME_ZONE */;
/*!40103 SET TIME_ZONE='+00:00' */;
/*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */;
/*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;
/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;
/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;

--
-- Table structure for table `lessons`
--

DROP TABLE IF EXISTS `lessons`;
CREATE TABLE `lessons` (
  `id` int(11) NOT NULL auto_increment,
  `name` varchar(255) default NULL,
  `description` text,
  `user_id` int(11) default NULL,
  `created_at` datetime default NULL,
  `privacy` int(11) default '1',
  `is_official` tinyint(1) default '0',
  `is_readonly` tinyint(1) default NULL,
  `comments_allowed` tinyint(1) default NULL,
  `hours` int(11) default NULL,
  `sessions` int(11) default NULL,
  `updated_at` datetime default NULL,
  `custom_menu_swf` varchar(255) default NULL,
  `pupil_liked_at` datetime default NULL,
  `user_liked_at` datetime default NULL,
  `pupil_favorite_count` int(11) default '0',
  `user_favorite_count` int(11) default '0',
  `teacher_notes` text,
  `pupil_notes` text,
  PRIMARY KEY  (`id`),
  KEY `user_id` (`user_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

--
-- Dumping data for table `lessons`
--
-- WHERE:  id=79510

LOCK TABLES `lessons` WRITE;
/*!40000 ALTER TABLE `lessons` DISABLE KEYS */;
INSERT INTO `lessons` VALUES (79510,'Jazz–Man',NULL,NULL,'2014-04-03 12:08:05',1,0,NULL,NULL,NULL,NULL,'2014-04-03 12:08:05',NULL,NULL,NULL,0,0,NULL,NULL);
/*!40000 ALTER TABLE `lessons` ENABLE KEYS */;
UNLOCK TABLES;
/*!40103 SET TIME_ZONE=@OLD_TIME_ZONE */;

/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;
/*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;
/*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */;
/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;

-- Dump completed on 2014-04-03 11:18:20

所以,看起来额外的选项起到了作用:

--extended-insert --single-transaction --default-character-set=latin1 --skip-set-charset

最佳答案

当 MySQL 客户端与服务器交互时:

  1. 服务器仅接收字节串形式的任何文本;客户端之前会告诉它如何对此类文本进行编码。

  2. 如果服务器随后必须将该文本存储在表中,则必须将其转码为相关列的编码(如果不同)。

  3. 如果客户端随后想要检索此类文本,服务器必须将其转码为客户端期望的编码。

如果客户端在第 1 步和第 3 步中使用的编码相同(通常是这种情况,尤其是当两种情况下的客户端是同一个应用程序时),那么它通常不会被注意到如果客户端使用的编码不是它所说的编码。例如,假设客户端告诉 MySQL 它将使用 latin1,但实际上以 utf8 发送数据:

  • 字符串 'Jazz–Man' 以 UTF-8 格式作为 0x4a617a7ae280934d616e 发送到服务器。

  • MySQL 在 Windows-1252 中解码这些字节,将它们理解为表示字符串 'Jazz–Man'

  • 为了存储在 utf8 列中,MySQL 将字符串转码为其 UTF-8 编码 0x4a617a7ac3a2e282ace2809c4d616e。这可以通过使用 SELECT HEX(name) FROM lessons WHERE id=79510 来验证。

  • 当客户端检索值时,MySQL 认为它需要 latin1 中的值,因此转码为 Windows-1252 编码 0x4a617a7ae280934d616e

  • 当客户端收到这些字节时,它会将它们解码为 UTF-8,因此将字符串理解为 'Jazz–Man'

结论:客户没有意识到任何问题。只有当不同的客户端(不会将其 UTF-8 连接错误声明为 latin1)尝试使用该表时,才会检测到问题。在您的情况下,这发生在 mysqldump 获得数据导出时;使用 --default-character-set=latin1 --skip-set-charset 选项有效地强制 mysqldump 以与您的应用程序相同的损坏方式运行,因此它最终得到正确编码的数据。

要解决您的问题,您必须:

  1. 配置您的应用程序,使其正确设置其 MySQL 连接字符集(例如,在 config/database.yml 中为 Rails 设置 encoding: utf8);

  2. 重新编码数据库中的数据,例如UPDATE lessons SET name = BINARY CONVERT(name USING latin1)(请注意,必须对每个编码错误的文本列执行此操作)。

另请注意,您可能希望以原子方式执行这两个操作,这可能需要一些思考。

关于mysql - utf8 数据在 mysql 中看起来不错,但在 rails 中损坏了,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22563225/

相关文章:

mysql - Nginx rtmp模块(m3u8)在本地播放?

php - 计算数据库字段上的代码行数

ruby-on-rails - 在 Ruby 中查询 JSON 嵌套哈希响应时出现问题

ruby-on-rails - Rails:ActiveSupport::HashWithIndifferentAccess:Class 的未定义方法 `primary_key'

java - 我的中文字符在电子邮件中变成问号

php - 除非打开错误报告,否则没有查询结果

mysql - 如何在MySQL select中转义单引号和双引号?

ruby-on-rails - 在 View 中显示本地时间

javascript - 如何可靠地去除破坏代码的不可见字符?

mysql - 在 Latin1 数据库中存储 UTF8 文本有什么后果?