2025_NIPS_Nemotron-CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model P

文章核心总结与翻译

一、主要内容

本文针对大型语言模型(LLMs)预训练数据混合优化的难题,提出了一种基于聚类的迭代数据混合引导框架(Nemotron-CLIMB)。该框架无需依赖人工标注的领域标签,通过自动化流程发现、评估和优化预训练数据混合物,具体包括三个核心步骤:

  1. 数据预处理:将大规模原始数据映射到嵌入空间,通过K-means聚类和簇合并策略,筛选出高质量语义簇,为数据混合提供基础;
  2. 迭代引导优化:将数据混合权重搜索转化为双层优化问题,利用轻量级代理模型评估候选混合物性能,训练预测器迭代精炼搜索空间,平衡探索与利用;
  3. 数据集构建:基于该框架构建了两个高质量数据集——1.2万亿token的NEMOTRON-CLIMBLAB(含20个语义簇,用于研究)和4000亿token的NEMOTRON-CLIMBMIX(用于高效预训练)。

实验结果显示,使用该框架优化的数据混合物训练模型:

  • 1B参数模型在400B token训练下,性能超越当前最优模型Llama-3.2-1B达2.0%;
  • 特定领域(如社会科学)优化较随机采样提升5%;
  • 在通用推理基准上,不同参数规模(350M、1B)模型均优于DoReMi、RegMix等主流数据混合方法。

二、创新点

  1. 自动化数据混合优化:通过嵌入驱动
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值