文章总结与翻译
一、主要内容
本文聚焦于设备端大语言模型(LLM)的低秩适配器(LoRA)在线持续融合问题。由于移动设备存储资源有限,而用户会不断请求新任务(如新增问题类型或语言支持),需增量接收LoRA适配器,因此需要在不存储所有适配器的前提下,融合新LoRA并保留原有任务性能。
文章提出了两种轻量级、无数据依赖的融合策略(K-Merge和K-Merge++),核心流程包括:
- 相似性聚类:通过余弦相似度计算,匹配新LoRA与已存储适配器的兼容性;
- 历史感知融合:利用融合历史的动态加权机制,平衡新旧任务能力;
- 存储决策:在存储预算内,选择新增存储槽或融合现有适配器,K-Merge++额外引入相似度阈值,为多样化未来LoRA预留空间。
实验基于5类任务(智能回复、摘要、语气调整、问答、语法纠错)和8种语言,在Llama-3.2-1B和Qwen-2.5-1.5B模型上验证,结果显示所提方法在存储约束下性能优于Linear、TIES、DARE等基线方法,且K-Merge++对任务到达顺序的鲁棒性更强。
二、创新点
- 提出了设备端LoRA在线持续融合的新场景,形式化定义了存储预算约束下的增量融合问题,适配真实场景中LoRA增量交付的需求;
- 设计了无数据轻量级融合框架:通过层与投影维度的余弦相似度匹配
订阅专栏 解锁全文

3217

被折叠的 条评论
为什么被折叠?



