(三)指令微调是什么

指令微调是什么

指令微调(instruction-tuned/instruction-following): 属于微调的一种方式。

作用:提供更好的与用户交互的能力。例如通过指令微调,让GPT-3变成ChatGPT

数据集:对话型数据集,例如FAQ数据集。当然,你可以自己转化得到问答格式的数据集。

关于指令微调比较神奇的发现-Generalization

  • 比如我微调数据中,没有提到code相关的问答数据,但是模型在微调之后,也能够回答。(当然,模型在预训练阶段见过)。但是这说明了微调之后模型能把这种问答的能力迁移到其它的data上面,而不局限于微调数据。

具体步骤

①Data Preparation -> ②Training -> ③Evaluation->①Data...

实操

  1. 介绍两种不同的指令模板,让模型能够处理不同类型的提示词和任务

    • load dataset and process:把原始数据集插入到上面的指令模板中,然后check and save,得到指令遵循(instruction-following)数据集

    • load the processed dataset and check

    • load model and tokenizer:(70m的小模型)

    还没有正式开始介绍训练和推理的部分,仅介绍了数据集部分

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值