文章核心总结与翻译
一、主要内容
本文针对大型语言模型(LLMs)预训练数据混合优化的难题,提出了一种基于聚类的迭代数据混合引导框架(Nemotron-CLIMB)。该框架无需依赖人工标注的领域标签,通过自动化流程发现、评估和优化预训练数据混合物,具体包括三个核心步骤:
- 数据预处理:将大规模原始数据映射到嵌入空间,通过K-means聚类和簇合并策略,筛选出高质量语义簇,为数据混合提供基础;
- 迭代引导优化:将数据混合权重搜索转化为双层优化问题,利用轻量级代理模型评估候选混合物性能,训练预测器迭代精炼搜索空间,平衡探索与利用;
- 数据集构建:基于该框架构建了两个高质量数据集——1.2万亿token的NEMOTRON-CLIMBLAB(含20个语义簇,用于研究)和4000亿token的NEMOTRON-CLIMBMIX(用于高效预训练)。
实验结果显示,使用该框架优化的数据混合物训练模型:
- 1B参数模型在400B token训练下,性能超越当前最优模型Llama-3.2-1B达2.0%;
- 特定领域(如社会科学)优化较随机采样提升5%;
- 在通用推理基准上,不同参数规模(350M、1B)模型均优于DoReMi、RegMix等主流数据混合方法。
二、创新点
- 自动化数据混合优化:通过嵌入驱动

订阅专栏 解锁全文

282

被折叠的 条评论
为什么被折叠?



