2025_NIPS_Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias

文章核心总结

主要内容

本文聚焦大语言模型(LLMs)作为训练数据生成器的应用,指出传统简单类别条件提示词(SimPrompt)存在数据多样性不足、继承模型固有偏见等问题。提出AttrPrompt(带多样属性的提示词) 方法,通过指定长度、风格、场景等属性维度构建提示词,生成兼具多样性和属性特征的训练数据。在4个高基数、多领域文本分类数据集(NYT、Amazon等)及多标签分类任务中验证,AttrPrompt在模型性能、数据多样性、成本效率上均优于SimPrompt,仅需5%的查询成本即可达到同等效果,且能缓解区域偏见等问题。

创新点
  1. 提出属性驱动的训练数据生成框架,通过明确属性维度(如位置、风格、长度)提升生成数据的多样性和可控性。
  2. 首次系统分析LLM生成数据的属性偏见与多样性对下游任务的影响,验证了属性多样性的关键作用。
  3. 实现极高的成本效率,AttrPrompt仅需SimPrompt 5%的查询成本,且兼容不同模型规模和现有数据生成方法。
  4. 首次将LLM作为训练数据生成器的范式扩展至多标签分类任务,验证了方法的通用性。

翻译部分(Markdown格式)

Abstract

大语言模型(LLMs)近期已被用作各类自然语言处理(NLP)任务的训练数据生成器。尽管已有研究探索了多种利用生成数据训练模型的方法,但这些方法通常依赖简单

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值