import jieba
from astropy.table.np_utils import join
import os
import sys
import jieba.posseg as pseg
def main():
current_dir = os.path.abspath('.')
#自定义词典文件last文件
dict_file = os.path.join(current_dir, 'last.txt')
jieba.load_userdict(dict_file)
#待分词的文件
file_name = os.path.join(current_dir, 'cutTest.txt')
f = open(file_name, encoding="UTF8")
line = f.readline()
#分词之后写入result文件
file_name2 = os.path.join(current_dir, 'result.txt')
f2 = open(file_name2, 'w', encoding='utf8')
while line:
seg_list = jieba.cut(line, cut_all=False)
seg_list = " ".join(seg_list)
seg_list.encode("utf8")
f2.write(seg_list)
f2.write("\n")
line = f.readline()
f2.close()
f.close()
print("end")
if __name__ == '__main__':
main()
【python技巧实用篇】python读写文件、jieba自定义字典
最新推荐文章于 2024-04-06 12:15:00 发布
这篇博客介绍了如何使用Python结合jieba库进行中文文件的读取、自定义词典加载以及分词操作。通过加载自定义词典提升分词准确性,将分词结果写入新的文件中,实现了对文本数据的高效处理。

3009

被折叠的 条评论
为什么被折叠?



