简介
此篇文章是对macbert4csc模型的一次尝试与思考,废话不多说,看内容。
模型结构
这个模型分成两部分:
- 使用BertForMaskedLM对预训练模型做mask训练。
- 对预测的结果输入linear,判断预测的结果和真实的结果是否相同,即二分类。
举例:
比如错句为我和你在一其,正确的句子为我和你在一起,错句输入MLM,得到的结果假设为我和你在一器。然后输入linear判别器,判断和正确的句子做二分类。最后两个loss进行相加。
思考
为什么选择macbert
首先看看什么是macbert,全称是(MLM as corrector),它是哈工大和讯飞一起训练的模型。主要做的内容有两点:
- 修改bert mask预处理代码,将bert做[mask]的地方用同义词来替代。同时引入全词mask。
- 替换NSP任务,使用SOP来替代。

本文探讨了MacBERT4CSC模型在错字识别任务上的应用,与Electra模型进行了对比。作者指出,尽管MacBERT4CSC通过同义词替换改进了预训练,但Electra的生成-判别结构可能更适合任务需求。通过调整损失函数权重,实验发现不同超参数设置对模型性能的影响,并提出考虑使用所有隐藏层的特征进行分类的优化思路。

7124

被折叠的 条评论
为什么被折叠?



