文章核心总结
主要内容
本文聚焦大语言模型(LLMs)作为训练数据生成器的应用,指出传统简单类别条件提示词(SimPrompt)存在数据多样性不足、继承模型固有偏见等问题。提出AttrPrompt(带多样属性的提示词) 方法,通过指定长度、风格、场景等属性维度构建提示词,生成兼具多样性和属性特征的训练数据。在4个高基数、多领域文本分类数据集(NYT、Amazon等)及多标签分类任务中验证,AttrPrompt在模型性能、数据多样性、成本效率上均优于SimPrompt,仅需5%的查询成本即可达到同等效果,且能缓解区域偏见等问题。
创新点
- 提出属性驱动的训练数据生成框架,通过明确属性维度(如位置、风格、长度)提升生成数据的多样性和可控性。
- 首次系统分析LLM生成数据的属性偏见与多样性对下游任务的影响,验证了属性多样性的关键作用。
- 实现极高的成本效率,AttrPrompt仅需SimPrompt 5%的查询成本,且兼容不同模型规模和现有数据生成方法。
- 首次将LLM作为训练数据生成器的范式扩展至多标签分类任务,验证了方法的通用性。
翻译部分(Markdown格式)
Abstract
大语言模型(LLMs)近期已被用作各类自然语言处理(NLP)任务的训练数据生成器。尽管已有研究探索了多种利用生成数据训练模型的方法,但这些方法通常依赖简单

订阅专栏 解锁全文

492

被折叠的 条评论
为什么被折叠?



