# MySQL 的 utf8 字符集的问题

理论上说起来,设置为 utf8 也并非一个完全合适、100% 没毛病的值,即便你将 MySQL 的字符集设置为 utf8 ,也有可能出现乱码!

# 1. MySQL 的 utf8 字符集乱码

通过以下命令,你可以查看 MySQL 所支持的所有『字符集』编码:

> show character set;

在显示的 Charset ,你会看见熟悉的 utf8

如果你再仔细看一下这一行,你会发现这一行的 Maxlen 列中的值居然是 3 !?

这是 MySQL 中的 utf8 并非我们现在常说的 『真·UTF8』 。它『最多』只用 3 个字节存储一个字符,而有些中日韩生僻字(包括 emoji 表情)的 Unicode 编码是需要 4 个字节宽度才能存储的,这就会导致一些乱码的隐患。

# 2. MySQL 的 utf8mb4 字符集

MySQL 解决这个问题的方案是绕过 utf8 提出一种新的字符集来实现 『真·UTF8』 功能:utf8mb4

实际上,为了统一称呼,MySQL 在提出 utf8mb4 字符集之后,就将 utf8 改为 utf8mb3 的别名,因此,你设置字符集为 utf8 本质上就是设置成了 utf8mb3

在更高版本(8.x)的 mysql 中,MySQL 直接将 utf8 改为了 utfmb4 的别名。