摘要
网上所公布的中文预训练模型基本采用了词级别的形式,表现出来就是在输入预处理阶段,中文先被分词,然后嵌入为向量。对于领域类的文本处理,分词的预处理反而依赖分词工具,对于术语词语存在被意外切分的情况,直接破坏原有语义。因此曾经在研究生期间,针对领域类的自然语言处理,尝试用字符级别的形式训练Albert语言模型,下游任务指标也有一定的提升。
本文将以字符级别对Albert语言模型进行预训练,并进行应用。
模型准备
本文的albert模型使用如下命令进行下载:
git clone https://github.com/lonePatient/albert_pytorch
然后安装好必要的依赖。
(新的模型不需要了)停用分词预处理
对项目中的model/tokenization_albert.py文件的convert_by_vocab函数,直接改为:
def convert_by_vocab(vocab,itmes):
if '[UNK]'

本文介绍如何以字符级别训练Albert语言模型,避免词级别分词带来的问题。通过预处理步骤,包括停用分词、生成字典和语料预处理,实现领域文本的更准确处理。
预训练&spm=1001.2101.3001.5002&articleId=124307784&d=1&t=3&u=42b5dca9c2d843dfb2b1bc2399a9ba8a)
1万+

被折叠的 条评论
为什么被折叠?



