HanLP是一个功能强大的自然语言处理库,提供了多种语言的分词、命名实体识别等功能。然而,网上关于HanLP的说明往往比较混乱,很多教程都是针对很多年前的API用法。而HanLP官网主要讲述的是RESTful格式的在线请求,但很少提到离线本地版本。
本文将介绍如何在离线本地环境中使用HanLP 2.1的native API进行中文分词和命名实体识别。本文使用的HanLP版本为HanLP 2.1.0-beta.46。
基本思路是选择单任务API,并加载了预训练模型。首先对示例句子进行分词(Tokenizer),然后再根据分词结果进行命名实体识别(NER)。
1. 首先,我们需要安装HanLP库。使用以下命令进行安装
# 选用清华源加速
pip install hanlp -i https://pypi.tuna.tsinghua.edu.cn/simple
# 安装完整版,注意zsh对于方括号[]要用引号包裹起来
#pip install --upgrade "hanlp[full]" -i https://pypi.tuna.tsinghua.edu.cn/simple
2. 对示例句子进行分词
import hanlp
# 示例句子
sentence = "李华在2023年参加了清华大学的计算机科学硕士研究生项目。"
# 显示可用的分词模型,语种见名称最后一个字段或相应语料库
print(hanlp.pretrained.tok.ALL)
# 加载预训练模型进行分词任务
tok = hanlp.load(hanl

本文详细介绍了如何在本地离线环境中使用HanLP2.1的nativeAPI进行中文分词和命名实体识别。通过安装HanLP库,加载预训练模型,分别进行分词和NER任务,展示了单任务API的使用方法,适合无网络延迟需求的场景。

1万+

被折叠的 条评论
为什么被折叠?



