2025_NIPS_Nemotron-CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model P

最新推荐文章于 2026-06-17 15:24:14 发布

原创最新推荐文章于 2026-06-17 15:24:14 发布 · 886 阅读

·

2

·

标签

#语言模型 #机器学习 #人工智能

LLM Daily 同时被 2 个专栏收录

1138 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

970 篇文章

订阅专栏

文章核心总结与翻译

一、主要内容

本文针对大型语言模型（LLMs）预训练数据混合优化的难题，提出了一种基于聚类的迭代数据混合引导框架（Nemotron-CLIMB）。该框架无需依赖人工标注的领域标签，通过自动化流程发现、评估和优化预训练数据混合物，具体包括三个核心步骤：

数据预处理：将大规模原始数据映射到嵌入空间，通过K-means聚类和簇合并策略，筛选出高质量语义簇，为数据混合提供基础；
迭代引导优化：将数据混合权重搜索转化为双层优化问题，利用轻量级代理模型评估候选混合物性能，训练预测器迭代精炼搜索空间，平衡探索与利用；
数据集构建：基于该框架构建了两个高质量数据集——1.2万亿token的NEMOTRON-CLIMBLAB（含20个语义簇，用于研究）和4000亿token的NEMOTRON-CLIMBMIX（用于高效预训练）。

实验结果显示，使用该框架优化的数据混合物训练模型：

1B参数模型在400B token训练下，性能超越当前最优模型Llama-3.2-1B达2.0%；
特定领域（如社会科学）优化较随机采样提升5%；
在通用推理基准上，不同参数规模（350M、1B）模型均优于DoReMi、RegMix等主流数据混合方法。

二、创新点

自动化数据混合优化：通过嵌入驱动

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。