指令微调是什么
指令微调(instruction-tuned/instruction-following): 属于微调的一种方式。
作用:提供更好的与用户交互的能力。例如通过指令微调,让GPT-3变成ChatGPT
数据集:对话型数据集,例如FAQ数据集。当然,你可以自己转化得到问答格式的数据集。
关于指令微调比较神奇的发现-Generalization:
-
比如我微调数据中,没有提到code相关的问答数据,但是模型在微调之后,也能够回答。(当然,模型在预训练阶段见过)。但是这说明了微调之后模型能把这种问答的能力迁移到其它的data上面,而不局限于微调数据。

具体步骤
①Data Preparation -> ②Training -> ③Evaluation->①Data...
实操
-
介绍两种不同的指令模板,让模型能够处理不同类型的提示词和任务

-
load dataset and process:把原始数据集插入到上面的指令模板中,然后check and save,得到指令遵循(instruction-following)数据集
-
load the processed dataset and check
-
load model and tokenizer:(70m的小模型)
还没有正式开始介绍训练和推理的部分,仅介绍了数据集部分
指令微调是什么&spm=1001.2101.3001.5002&articleId=149672530&d=1&t=3&u=3923a766d17644098ca8ccb93d14f8c9)
3万+

被折叠的 条评论
为什么被折叠?



