MySQL 在 5.5.3 版本之后增加了 utf8mb4 编码,mb4 就是 most bytes 4 的意思,专门用来兼容四字节的 unicode。好在utf8mb4 是 utf8 的超集,除了将编码改为 utf8mb4 外不需要做其他转换。当然,为了节省空间,一般情况下使用 utf8 也就够了。
上面说了既然 utf8 能够存下大部分中文汉字,那为什么还要使用 utf8mb4 呢? 原来 MySQL 支持的 utf8 编码最大字符长度为 3 个字节,如果遇到 4 个字节的宽字符就会插入异常了。
3 个字节的 UTF-8 最大能编码的 Unicode 字符是 0xffff,也就是 Unicode 中的基本多文种平面(BMP)。也就是说,任何不在基本多文本平面的 Unicode 字符,都无法使用 MySQL 的 utf8 字符集存储。包括 Emoji 表情(Emoji 是一种特殊的 Unicode 编码,常见于 ios 和 android 手机上),和很多不常用的汉字,以及任何新增的 Unicode 字符等等。
最初的 UTF-8 格式使用 1 至 6 个字节,最大能编码 31 位字符。最新的 UTF-8 规范只使用 1 到 4 个字节,最大能编码 21 位,正好能够表示所有的 17 个 Unicode 平面。
utf8 是 MySQL 中的一种字符集,只支持最长 3 个字节的 UTF-8 字符,也就是 Unicode 中的基本多文本平面。
MySQL 中的 utf8 为什么只支持持最长三个字节的 UTF-8 字符呢?我想了一下,可能是因为 MySQL 刚开始开发那会,Unicode 还没有辅助平面这一说呢。那时候,Unicode 委员会还做着 “65535 个字符足够全世界用了” 的美梦。MySQL 中的字符串长度算的是字符数而非字节数,对于 CHAR 数据类型来说,需要为字符串保留足够的长。当使用 utf8 字符集时,需要保留的长度就是 utf8 最长字符长度乘以字符串长度,所以这里理所当然的限制了 utf8 最大长度为 3,比如 CHAR(100) MySQL 会保留 300字节长度。至于后续的版本为什么不对 4 字节长度的 UTF-8 字符提供支持,我想一个是为了向后兼容性的考虑,还有就是基本多文种平面之外的字符确实很少用到。
要在 MySQL 中保存 4 字节长度的 UTF-8 字符,需要使用 utf8mb4 字符集,但只有 5.5.3 版本以后的才支持。为了获取更好的兼容性,应该总是使用 utf8mb4 而非 utf8。对于 CHAR 类型数据,utf8mb4 会多消耗一些空间,根据 MySQL 官方建议,使用 VARCHAR 替代 CHAR。
(1)查看 MySQL 版本
mysql> select version(); +-----------+ | version() | +-----------+ | 5.7.24 | +-----------+ 1 row in set
(2)查看数据库编码格式
mysql> show variables like 'character_set_database'; +------------------------+-------+ | Variable_name | Value | +------------------------+-------+ | character_set_database | utf8 | +------------------------+-------+ 1 row in set
(3)查看数据表的编码格式
mysql> show create table user \G *************************** 1. row *************************** Table: user Create Table: CREATE TABLE `user` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(255) DEFAULT NULL, `sex` varchar(255) DEFAULT NULL, `age` int(11) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=4 DEFAULT CHARSET=utf8 1 row in set (0.00 sec)
注意:\G 表示将查询结果进行按列打印,可以使每个字段打印到单独的行
(4)创建数据库时指定数据库的字符集
mysql> create database demo_db character set utf8mb4; Query OK, 1 row affected (0.00 sec) mysql> use demo_db; Database changed mysql> show variables like 'character_set_database'; +------------------------+---------+ | Variable_name | Value | +------------------------+---------+ | character_set_database | utf8mb4 | +------------------------+---------+ 1 row in set, 1 warning (0.00 sec)
(5)创建数据表时指定数据表的编码格式
mysql> create table tb_demo(id int not null, name varchar(100)) default charset=utf8mb4; Query OK, 0 rows affected (0.02 sec) mysql> show create table tb_demo \G *************************** 1. row *************************** Table: tb_demo Create Table: CREATE TABLE `tb_demo` ( `id` int(11) NOT NULL, `name` varchar(100) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 1 row in set (0.00 sec)
(6)修改数据库的编码格式
alter database <数据库名> character set utf8; mysql> alter database demo_db character set utf8; Query OK, 1 row affected (0.00 sec) mysql> show variables like 'character_set_database'; +------------------------+-------+ | Variable_name | Value | +------------------------+-------+ | character_set_database | utf8 | +------------------------+-------+ 1 row in set, 1 warning (0.00 sec)
(7)修改数据表格编码格式
alter table <表名> character set utf8; mysql> alter table tb_demo character set utf8mb4; Query OK, 0 rows affected (0.01 sec) Records: 0 Duplicates: 0 Warnings: 0 mysql> show create table tb_demo \G *************************** 1. row *************************** Table: tb_demo Create Table: CREATE TABLE `tb_demo` ( `id` int(11) NOT NULL, `name` varchar(100) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 1 row in set (0.00 sec)
(8)修改字段编码格式
mysql>alter table <表名> change <字段名> <字段名> <类型> character set utf8; mysql> show create table tb_demo \G *************************** 1. row *************************** Table: tb_demo Create Table: CREATE TABLE `tb_demo` ( `id` int(11) NOT NULL, `name` varchar(100) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 1 row in set (0.00 sec) mysql> alter table tb_demo change name name varchar(128) character set utf8; Query OK, 0 rows affected (0.01 sec) Records: 0 Duplicates: 0 Warnings: 0 mysql> show create table tb_demo \G *************************** 1. row *************************** Table: tb_demo Create Table: CREATE TABLE `tb_demo` ( `id` int(11) NOT NULL, `name` varchar(128) CHARACTER SET utf8 DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 1 row in set (0.00 sec)