HanLP实战教程：离线本地版分词与命名实体识别

原创

已于 2023-04-06 17:01:42 修改 · 7.8k 阅读

标签

#中文分词 #命名实体识别 #自然语言处理

收录于

于 2023-04-06 15:37:35 首次发布

本文详细介绍了如何在本地离线环境中使用HanLP2.1的nativeAPI进行中文分词和命名实体识别。通过安装HanLP库，加载预训练模型，分别进行分词和NER任务，展示了单任务API的使用方法，适合无网络延迟需求的场景。

HanLP是一个功能强大的自然语言处理库，提供了多种语言的分词、命名实体识别等功能。然而，网上关于HanLP的说明往往比较混乱，很多教程都是针对很多年前的API用法。而HanLP官网主要讲述的是RESTful格式的在线请求，但很少提到离线本地版本。

本文将介绍如何在离线本地环境中使用HanLP 2.1的native API进行中文分词和命名实体识别。本文使用的HanLP版本为HanLP 2.1.0-beta.46。

基本思路是选择单任务API，并加载了预训练模型。首先对示例句子进行分词（Tokenizer），然后再根据分词结果进行命名实体识别（NER）。

1. 首先，我们需要安装HanLP库。使用以下命令进行安装

# 选用清华源加速
pip install hanlp -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装完整版，注意zsh对于方括号[]要用引号包裹起来
#pip install --upgrade "hanlp[full]" -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 对示例句子进行分词

import hanlp

# 示例句子
sentence = "李华在2023年参加了清华大学的计算机科学硕士研究生项目。"

# 显示可用的分词模型，语种见名称最后一个字段或相应语料库
print(hanlp.pretrained.tok.ALL)


# 加载预训练模型进行分词任务
tok = hanlp.load(hanl