Python字符串编码转换 encode()和decode()方法

最新推荐文章于 2024-05-10 19:05:59 发布

翻译最新推荐文章于 2024-05-10 19:05:59 发布 · 526 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://www.jb51.net/article/231693.htm

标签

#python

本文介绍了字符串编码的发展历程，从最早的ASCII编码到国际通用的UTF-8编码，并详细讲解了Python中的str与bytes类型之间的encode()和decode()转换方法。

最早的字符串编码是 ASCII 编码，它仅仅对 10 个数字、26 个大小写英文字母以及一些特殊字符进行了编码。ASCII 码做多只能表示 256 个符号，每个字符只需要占用 1 个字节。

随着信息技术的发展，各国的文字都需要进行编码，于是相继出现了 GBK、GB2312、UTF-8 编码等，其中 GBK 和 GB2312 是我国制定的中文编码标准，规定英文字符母占用 1 个字节，中文字符占用 2 个字节；而 UTF-8 是国际通过的编码格式，它包含了全世界所有国家需要用到的字符，其规定英文字符占用 1 个字节，中文字符占用 3 个字节。Python 3.x 默认采用 UTF-8 编码格式
在 Python 中，有 2 种常用的字符串类型，分别为 str 和 bytes 类型，其中 str 用来表示 Unicode 字符，bytes 用来表示二进制数据。str 类型和 bytes 类型之间就需要使用 encode() 和 decode() 方法进行转换。
1.Python encode()方法
encode() 方法为字符串类型（str）提供的方法，用于将 str 类型转换成 bytes 类型，这个过程也称为“编码”。
encode() 方法的语法格式如下：
str.encode([encoding=“utf-8”][,errors=“strict”])
注意:格式中用 [] 括起来的参数为可选参数，也就是说，在使用此方法时，可以使用 [] 中的参数，也可以不使用。
表 1 encode()参数及含义:
在这里插入图片描述
注意:使用 encode() 方法对原字符串进行编码，不会直接修改原字符串，如果想修改原字符串，需要重新赋值。
【例 1】将 str 类型字符串“C语言中文网”转换成 bytes 类型。

str = “C语言中文网”
str.encode()
b’C\xe8\xaf\xad\xe8\xa8\x80\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91’

2.Python decode()方法
和 encode() 方法正好相反，decode() 方法用于将 bytes 类型的二进制数据转换为 str 类型，这个过程也称为“解码”。
decode() 方法的语法格式如下：
bytes.decode([encoding=“utf-8”][,errors=“strict”])
表 2 decode()参数及含义:
在这里插入图片描述
【例 2】

str = “C语言中文网”
bytes=str.encode()
bytes.decode()
‘C语言中文网’
注意:如果编码时采用的不是默认的 UTF-8 编码，则解码时要选择和编码时一样的格式，否则会抛出异常，例如：
str = “C语言中文网”
bytes = str.encode(“GBK”)
bytes.decode() #默认使用 UTF-8 编码，会抛出以下异常
Traceback (most recent call last):
File “<pyshell#10>”, line 1, in
bytes.decode()
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd3 in position 1: invalid continuation byte
bytes.decode(“GBK”)
‘C语言中文网’