一、介绍UTF-8
UTF-8(Unicode Transformation Format - 8-bit)是一种可变长度的字符编码,用于表示Unicode字符集中的字符。它使用1到4个字节来编码不同的字符。
-
1字节:用于编码ASCII字符(0x00 - 0x7F),与ASCII编码完全兼容,只需要1个字节。
-
2字节:带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码,使用了2个字节编码。
-
3字节:用于编码基本多文种平面(BMP)中的字符,包括大部分常用汉字,使用了3个字节编码。
-
4字节:用于编码Unicode辅助平面的字符,如一些罕见字符或表情符号,使用了4个字节编码。
UTF-8有四种编码组成,UTF8-1、UTF8-2、UTF8-3、UTF8-4
|
UTF8-1 |
0x00-0x7F |
|
UTF8-2 |
0xC2-0xDF 0x80-0xBF |
|
UTF8-3 |
0xE0 0xA0-0xBF 0x80-0xBF 0xE1-0xEC 0x80-0xBF 0x80-0xBF 0xED 0x80-0x9F 0x80-0xBF 0xEE-0xEF 0x80-0xBF 0x80-0xBF |
|
UTF8-4 |
0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF 0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80-0xBF 0xF4 0x80-0x8F 0x80-0xBF 0x80-0xBF |

2万+

被折叠的 条评论
为什么被折叠?



