[python]UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd'

本文针对Python环境下出现的UnicodeEncodeError编码问题进行了解析,并提供了一种解决方案:使用str.encode()的replace选项将无法识别的字符转换为?,从而避免写入文件时出现错误。

有关python编码的问题,一直以来都是十分头疼。

虽然看过不少编码方面的相关解释,但有时候还是有些莫名其妙。尤其是Windows下有时候会根据系统默认编码解析文本,进而显示在屏幕上。导致有时会出现奇怪的编码错误。

今天用脚本在写文件的时候,就总是弹出UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd'的编码问题。

不清楚为什么数据库中数据日志会出现这种无法识别的编码。

有种说法是当从某语言向Unicode转化时,如果在某语言中没有该字符,得到的将是Unicode的代码“\uffffd”。尝试了码池更广的GB2312依然无法解析,有点无从下手。

通过客户端查询显示是类似�的字符。感觉信息在数据库写入时错误已经发生了,原始数据就有问题。

 

既然无法解析,只好尝试去掉这个\ufffd符号,辗转花费了不少功夫。

最后采用的方案是,通过str.encode()的replace选项将危险字符转为了?, 好歹能写入文本不再报错。

str(text).encode('gbk', 'replace').decode('utf8')

将不识别的编码转变为?字符。

转载于:https://www.cnblogs.com/oDoraemon/p/8523947.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值