字符级中文Albert语言模型（pytorch）预训练

原创

已于 2022-04-20 22:56:18 修改 · 3.5k 阅读

·

1

·

标签

#python #nlp #语言模型

于 2022-04-20 21:45:51 首次发布

本文介绍如何以字符级别训练Albert语言模型，避免词级别分词带来的问题。通过预处理步骤，包括停用分词、生成字典和语料预处理，实现领域文本的更准确处理。

摘要

网上所公布的中文预训练模型基本采用了词级别的形式，表现出来就是在输入预处理阶段，中文先被分词，然后嵌入为向量。对于领域类的文本处理，分词的预处理反而依赖分词工具，对于术语词语存在被意外切分的情况，直接破坏原有语义。因此曾经在研究生期间，针对领域类的自然语言处理，尝试用字符级别的形式训练Albert语言模型，下游任务指标也有一定的提升。
本文将以字符级别对Albert语言模型进行预训练，并进行应用。

模型准备

本文的albert模型使用如下命令进行下载：

git clone https://github.com/lonePatient/albert_pytorch

然后安装好必要的依赖。

（新的模型不需要了）停用分词预处理

对项目中的model/tokenization_albert.py文件的convert_by_vocab函数，直接改为：

def convert_by_vocab(vocab,itmes):
	if '[UNK]'

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。