python3去除UTF-8的BOM前缀（\xef\xbb\xbf）

最新推荐文章于 2022-10-27 11:17:18 发布

原创最新推荐文章于 2022-10-27 11:17:18 发布 · 6.2k 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python

收录于

机器学习专栏收录该内容

18 篇文章

订阅专栏

本文详细介绍了在处理文本文件时遇到的BOM编码问题及解决方案。作者在实验中发现，相同的字符因BOM编码的存在而被误判为不等，通过代码逐句去除BOM编码，解决了这一难题。

做实验的时候，出现了莫名其妙的错误，打印出来一看，同样的字符，判断的却不想等，因为二者的编码不同，通过查资料，发现是bom编码的问题，即前面多了\xef\xbb\xbf

网上相关的方法很多，另存为无bom格式的，是最直接了当的方法

但是，我另存了之后，也还是出错，貌似没效果

于是，还是决定从代码中qu去除掉\xef\xbb\xbf

网上的方法很多，大多数是针对zhen整个文件的头部有\xef\xbb\xbf的解决

https://blog.csdn.net/qq_16583687/article/details/72638993

https://blog.csdn.net/founderznd/article/details/52197078

而我的问题是，文件有多行，某些行的头部有，某些行的头部没有

https://blog.csdn.net/wbiblem/article/details/73656413

https://blog.csdn.net/hongyu_zhou/article/details/80365815

可是，这两个方法，对我的问题还是不实用，自己借鉴了下进行了解决

f_posdict = open(pos_path, encoding='utf-8')
posdict = f_posdict.read().split('\n')
posdict = [x.encode('utf-8').decode("utf-8-sig") for x in posdict]  # 逐句去除bom编码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cjjwwss

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python 读取txt出现\xef\xbb\xbf…的问题

qq_16583687的博客

05-23

2万+

用python读取txt文件，文件的内容是一列数如下：1883 1886 1900 1900 1897 1897 1897 1897 1906 1917 1910 1910但是读取的时候第一个元素为‘\xef\xbb\xbf1883’，上网看了一些资料，原来在python的file对象的readline以及readlines程序中，针对一些UTF-8编码的文件，开头会加入BOM来表明编码方式。解

参与评论您还未登录，请先登录后发表或查看评论

关于\xEF\xBB\xBF的介绍

Linux痞子

07-04

1万+

UTF-8编码中BOM的检测与删除所谓BOM，全称是Byte Order Mark，它是一个Unicode字符，通常出现在文本的开头，用来标识字节序（Big/Little Endian），除此以外还可以标识编码（UTF-8/16/32），如果出现在文本中间，则解释为zero width no-break space。注：Unicode相关知识的详细介绍请参考UTF-8, UTF-16, UT

\xef\xbb\xbf

wwyyxx26的专栏

07-12

8175

\xef\xbb\xbf表示16进制串

Redis中存字段key出现 \xef \xbb \xbf

weixin_30338481的博客

05-06

1066

环境： java向redis中存数据用于重复判断，结果有一条记录居然去不了重复，用Redis DeskTop Manager 查看发现，有一个 key 中居然是这样的： 20190324157:\xEF\xBB\xBF55103521621:500181463 也就是比正常的数据多了 \xEF\xBB\xBF 然后在java控制台打印日志，居然看不出区别，也就是控制台居然都是...

python \xef\xbb\xbf --- 去除

maka_uir的博客

05-13

2522

比较两个字符串同样都是str 打印出来没有问题都是一样的但是 str1 == str2 一直都是False 将两个字符encode成UTF-8打印发现前面多了\xef\xbb\xbf 查阅资料是UTF-8的BOM前缀解决办法： str1.encode('utf-8').decode("utf-8-sig") ...

批量去除UTF-8的BOM前缀（python3版）

Hongyu_Zhou的博客

05-18

5336

编译过程中最烦的就是报错 \65279这是因为代码中采用了 utf-8有bom的编码格式，如果有大量文件有bom，那一个一个的修改成无bom模式是很恼火的，用python可以实现批量转化有bom为无bom，bom其实就是在文件的开头，插入了3bit的bom头\xef\xbb\xbf用python按二进制读取文件，检查开头是否有bom头，如果有就删掉，没有就算了，这样就把有bom的全部替换成无bom...

python读取二进制文件 \xff\xfe \xef\xbb\xbf

得克特

06-24

6694

读取二进制文件编码是一个比较麻烦的事情我们在decode二进制文件时，是需要知道编码格式的，除了常见的utf-8，还有UCS-2-Little Endian(utf-16-le)和UTF-8-BOM(utf-8-sig) 如下是UCS-2-Little Endian的二进制文件前缀如下是UTF-8-BOM的二进制文件前缀做个判断，确定decode解码格式 if b'\xff\xfe'in res['bdata']: print('UCS-2-Little Endian') s =

解决csv文件Excel打开中文乱码问题

α-geek的专栏

04-02

1万+

在用Go/Python写入csv文件时，经常会遇到导出的文件用Excel打开乱码，但用Numbers/记事本打开正常的问题。解决方案：在文件头部加上UTF-8 BOM Python writer.write("\xEF\xBB\xBF") Go file.WriteString("\xEF\xBB\xBF") ...

['\xef\xbb\xbf这个什么含义？ - PY技术开发交流区 - 乐讯手机高手

01-13

582

['\xef\xbb\xbf这个什么含义？ - PY技术开发交流区 - 乐讯手机高手 ['\xef\xbb\xbf这个什么含义？ - PY技术开发交流区 - 乐讯手机高手那是U8编码的BOM，就是文件头吧，可加可不加，但windows的记事本默认会加的… ...

解决\xEF\xBB\xBF问题

jcoiwenwfkowe的博客

05-17

882

解决\xEF\xBB\xBF问题

python xlrd读取文件报错_Python使用xlrd读Excel文件时报错

weixin_39989190的博客

11-28

2239

问题描述原始脚本报错信息XLRDError: Unsupported format, or corrupt file: Expected BOF record; found '\xef\xbb\xbf原因分析从这个错误提示看，不像是脚本问题，而是Excel文件本身的格式错误导致的。提示的意思就是期望的是BOF开头记录，但是读到的是'\xef\xbb\xbf果真，以右键文本方式打开该文件，内容全是标...

二进制编码

dongdong7_77的博客

07-21

1853

前言我们都知道，一个程序是=数据结构+算法，如果对应到组成原理或者是硬件层面上来说，算法就是我们的各种计算机指令，而数据结构就是我们对应的二进制数据字符串的表示，从编码到数字其实不仅数字可以用字符串来表示，最典型的例子就是字符串，最早的使用的为英文字符串，加上数字和一些特殊的符号，之后使用8位的二进制，就能表示我们所有的字符了，这个其实就是我们经常说的ASCII码了 ascii就好比一个字典，它可以表示不同的数，之后在我们的字符中，数字1也不再是1了。而是31了，如果是两个数字的话则就是两个连续的二进

锟斤拷？UTF-8与GBK互转，为什么会乱码？

热门推荐

_古井心

10-18

17万+

作为一名程序员，肯定有被乱码困扰的时候，真到了百思不得其解的时候，就会觉得：英文程序员真幸福。但其实只要明白编码之间的转换规律，其实乱码so easy~ 我们知道，计算机存储数据都是2进制，就是0和1，那么这么多的字符就都需要有自己对应的0和1组成的序列，计算机将需要存储的字符转换成它们对应的01序列，然后就可以储存在电脑里了。比如我们可以定义用8位2进制表示一个字符，“00...

python读取带数字的文章路径出现\xef\xbb\xbf…的问题

vivian_ll的博客

01-09

3953

用python读取txt文件，文件的内容包含一列数如下： F:\RenYongguo\cats\3\3.jpg F:\RenYongguo\cats\3\4.jpg F:\RenYongguo\cats\3\5.jpg … 但是运行时报错，读取的文件路径为 IOError: [Errno 22] invalid mode (‘wb’) or filename:‘F:\Ren

python 读一个utf8编码的文本文件，为啥有\xef\xbb\xbf文件头呢?怎么处理呀

wjzqh的博客

02-01

6283

EF BB BF是被称为 Byte order mark (BOM)的文件标记，用来指出这个文件是UTF-8编码。处理方式见 Reading Unicode file data with BOM chars in Python 的第一个回答。

Python程序报错SyntaxError: Non-UTF-8 code starting with ‘\xef‘ in file

xxwtiancai的博客

10-27

6851

Python报错 SyntaxError: Non-UTF-8 code starting with '\xef' in file

SyntaxError: Non-ASCII character ‘\xef‘ in file 错误解决

oykotxuyang的博客

11-21

5498

转载：SyntaxError: Non-ASCII character ‘\xef’ in file 错误解决在测试SDIoT的python代码时，老是出现一个问题：命令行里出现这个错误： SyntaxError: Non-ASCII character '\xef' in file 原因：Python的默认编码文件是用的ASCII码，你将文件存成了UTF-8也没用解决办法：在文件开头

Python，Non-ASCII character '\xef'错误

肓己CSDN

06-20

3293

code git:(master) ✗ python wx.py File “wx.py”, line 1 SyntaxError: Non-ASCII character ‘\xef’ in file wx.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for de...

python中烦人的锟斤拷（\xef\xbf\xbd）

dianliao7817的博客

07-26

1115

首先要知道\xef\xbf\xbd是啥东西 >>> u'\uFFFD'.encode('utf-8') '\xef\xbf\xbd' 由此我们可以知道\xef\xbf\xbd是utf8编码的'\uFFFD'，那么这个'\uFFFD'是啥东西呢？原来是因为Unicode和老编码体系的转化过程中，肯定有一些字，用Unicode是没法表示的，Unicode官...