git项目地址:https://github.com/zhbstu/Qwen3-MS
代码运行注意详情
-
本次实战主要是全量微调和lora微调两种
-
因为使用了swanlab,用作日志报告,可以展示训练的具体详情,比如loss等指标,所以首先先去注册自己的swanlab账号,并且修改文件:modelConfig.py中的SWANLAB_API_KEY
-
如果自己的服务器显存不足的话,比如只有16GB可训练0.6B的,如果有24GB即可训练1.7B的效果会更好
-
注意全量微调的学习率,因为我用的是1.7B的,我试过很多次,只有把学习率调到特别低才能正常的训练,不然就会梯度爆炸,可能是因为参数量太大的缘故,起码需要e-6
-
如果我的代码有任何问题或不足的地方欢迎大家指出问题,多交流

1万+

被折叠的 条评论
为什么被折叠?



