Python调用jieba分词中的中文编码问题

最新推荐文章于 2022-04-11 09:09:51 发布

原创

最新推荐文章于 2022-04-11 09:09:51 发布 · 1.2w 阅读

标签

#python #编码

收录于

在尝试使用Python调用jieba库进行中文分词时，遇到了UnicodeEncodeError，错误指出'ascii' codec无法编码字符。了解到问题在于中文在utf-8和unicode之间的转换。官方文档表明返回结果是generator类型，通过编码处理后得到了结果，但对于Python的熟悉程度有限，不确定是否存在更优的解决方案。

使用python调用jieba进行中文分词： https://github.com/fxsjy/jieba

根据官方指导完成安装，copy demo，出现问题：

<span style="font-size:18px;"># encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式</span>

报错：

UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' in position 12: ordinal not in range(128)

之前就知道python处理中文比较麻烦，通过报错可知中文在 utf-8和unicode转换中出现问题

通过官方文档，可知：