使用python调用jieba进行中文分词: https://github.com/fxsjy/jieba
根据官方指导完成安装,copy demo,出现问题:
<span style="font-size:18px;"># encoding=utf-8
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式</span>
报错:
UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' in position 12: ordinal not in range(128)
之前就知道python处理中文比较麻烦,通过报错可知 中文在 utf-8和unicode转换中出现问题
通过官方文档,可知:

在尝试使用Python调用jieba库进行中文分词时,遇到了UnicodeEncodeError,错误指出'ascii' codec无法编码字符。了解到问题在于中文在utf-8和unicode之间的转换。官方文档表明返回结果是generator类型,通过编码处理后得到了结果,但对于Python的熟悉程度有限,不确定是否存在更优的解决方案。

664

被折叠的 条评论
为什么被折叠?



