某些软件,如notepad,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。
因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:
# coding=gbk
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
因此我们在读取时需要自己去掉这些字符,python中的codecs module定义了这个常量:
# coding=gbk
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
本文介绍了一种去除UTF-8编码文件中字节顺序标记(BOM)的方法,并提供了使用Python实现的具体步骤。
:讨厌的BOM&spm=1001.2101.3001.5002&articleId=1882778&d=1&t=3&u=d19d9d3580e74d169752e52ff2691685)
1658

被折叠的 条评论
为什么被折叠?



