你知道 mysql 中 utf8 和 utf8mb4 区别

本文将介绍 mysql 中 utf8 和 utf8mb4 编码的区别。

MySQL 在 5.5.3 版本之后增加了 utf8mb4 编码,mb4 就是 most bytes 4 的意思,专门用来兼容四字节的 unicode。好在utf8mb4 是 utf8 的超集,除了将编码改为 utf8mb4 外不需要做其他转换。当然,为了节省空间,一般情况下使用 utf8 也就够了。

为什么需要 utf8mb4 编码?

上面说了既然 utf8 能够存下大部分中文汉字,那为什么还要使用 utf8mb4 呢? 原来 MySQL 支持的 utf8 编码最大字符长度为 3 个字节,如果遇到 4 个字节的宽字符就会插入异常了。

3 个字节的 UTF-8 最大能编码的 Unicode 字符是 0xffff,也就是 Unicode 中的基本多文种平面(BMP)。也就是说,任何不在基本多文本平面的 Unicode 字符,都无法使用 MySQL 的 utf8 字符集存储。包括 Emoji 表情(Emoji 是一种特殊的 Unicode 编码,常见于 ios 和 android 手机上),和很多不常用的汉字,以及任何新增的 Unicode 字符等等。

问题根源

最初的 UTF-8 格式使用 1 至 6 个字节,最大能编码 31 位字符。最新的 UTF-8 规范只使用 1 到 4 个字节,最大能编码 21 位,正好能够表示所有的 17 个 Unicode 平面。

utf8 是 MySQL 中的一种字符集,只支持最长 3 个字节的 UTF-8 字符,也就是 Unicode 中的基本多文本平面。

MySQL 中的 utf8 为什么只支持持最长三个字节的 UTF-8 字符呢?我想了一下,可能是因为 MySQL 刚开始开发那会,Unicode 还没有辅助平面这一说呢。那时候,Unicode 委员会还做着 “65535 个字符足够全世界用了” 的美梦。MySQL 中的字符串长度算的是字符数而非字节数,对于 CHAR 数据类型来说,需要为字符串保留足够的长。当使用 utf8 字符集时,需要保留的长度就是 utf8 最长字符长度乘以字符串长度,所以这里理所当然的限制了 utf8 最大长度为 3,比如 CHAR(100)  MySQL 会保留 300字节长度。至于后续的版本为什么不对 4 字节长度的 UTF-8 字符提供支持,我想一个是为了向后兼容性的考虑,还有就是基本多文种平面之外的字符确实很少用到。

要在 MySQL 中保存 4 字节长度的 UTF-8 字符,需要使用 utf8mb4 字符集,但只有 5.5.3 版本以后的才支持。为了获取更好的兼容性,应该总是使用 utf8mb4 而非 utf8。对于 CHAR 类型数据,utf8mb4 会多消耗一些空间,根据 MySQL 官方建议,使用 VARCHAR 替代 CHAR。

(1)查看 MySQL 版本

mysql> select version();
+-----------+
| version() |
+-----------+
| 5.7.24    |
+-----------+
1 row in set

(2)查看数据库编码格式

mysql> show variables like 'character_set_database';
+------------------------+-------+
| Variable_name          | Value |
+------------------------+-------+
| character_set_database | utf8  |
+------------------------+-------+
1 row in set

(3)查看数据表的编码格式

mysql> show create table user \G
*************************** 1. row ***************************
       Table: user
Create Table: CREATE TABLE `user` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `sex` varchar(255) DEFAULT NULL,
  `age` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=4 DEFAULT CHARSET=utf8
1 row in set (0.00 sec)

注意:\G 表示将查询结果进行按列打印,可以使每个字段打印到单独的行

(4)创建数据库时指定数据库的字符集

mysql> create database demo_db character set utf8mb4;
Query OK, 1 row affected (0.00 sec)

mysql> use demo_db;
Database changed

mysql> show variables like 'character_set_database';
+------------------------+---------+
| Variable_name          | Value   |
+------------------------+---------+
| character_set_database | utf8mb4 |
+------------------------+---------+
1 row in set, 1 warning (0.00 sec)

(5)创建数据表时指定数据表的编码格式

mysql> create table tb_demo(id int not null, name varchar(100)) default charset=utf8mb4;
Query OK, 0 rows affected (0.02 sec)

mysql> show create table tb_demo \G
*************************** 1. row ***************************
       Table: tb_demo
Create Table: CREATE TABLE `tb_demo` (
  `id` int(11) NOT NULL,
  `name` varchar(100) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
1 row in set (0.00 sec)

(6)修改数据库的编码格式

alter database <数据库名> character set utf8;

mysql> alter database demo_db character set utf8;
Query OK, 1 row affected (0.00 sec)

mysql> show variables like 'character_set_database';
+------------------------+-------+
| Variable_name          | Value |
+------------------------+-------+
| character_set_database | utf8  |
+------------------------+-------+
1 row in set, 1 warning (0.00 sec)

(7)修改数据表格编码格式

alter table <表名> character set utf8;

mysql> alter table tb_demo character set utf8mb4;
Query OK, 0 rows affected (0.01 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show create table tb_demo \G
*************************** 1. row ***************************
       Table: tb_demo
Create Table: CREATE TABLE `tb_demo` (
  `id` int(11) NOT NULL,
  `name` varchar(100) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
1 row in set (0.00 sec)

(8)修改字段编码格式

mysql>alter table <表名> change <字段名> <字段名> <类型> character set utf8;
mysql> show create table tb_demo \G
*************************** 1. row ***************************
       Table: tb_demo
Create Table: CREATE TABLE `tb_demo` (
  `id` int(11) NOT NULL,
  `name` varchar(100) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
1 row in set (0.00 sec)

mysql> alter table tb_demo change name name varchar(128) character set utf8;
Query OK, 0 rows affected (0.01 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show create table tb_demo \G
*************************** 1. row ***************************
       Table: tb_demo
Create Table: CREATE TABLE `tb_demo` (
  `id` int(11) NOT NULL,
  `name` varchar(128) CHARACTER SET utf8 DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
1 row in set (0.00 sec)

参考资料:https://www.cnblogs.com/beyang/p/7580814.html

学习知识要善于思考,思考,再思。我就是靠这个方法成为科学家的。 —— 爱因斯坦
0 不喜欢
说说我的看法 -
全部评论(
没有评论
关于
本网站专注于 Java、数据库(MySQL、Oracle)、Linux、软件架构及大数据等多领域技术知识分享。涵盖丰富的原创与精选技术文章,助力技术传播与交流。无论是技术新手渴望入门,还是资深开发者寻求进阶,这里都能为您提供深度见解与实用经验,让复杂编码变得轻松易懂,携手共赴技术提升新高度。如有侵权,请来信告知:hxstrive@outlook.com
其他应用
公众号