2025_NIPS_Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias

最新推荐文章于 2026-06-18 14:16:48 发布

原创最新推荐文章于 2026-06-18 14:16:48 发布 · 102 阅读

·

3

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 2 个专栏收录

2827 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

902 篇文章

订阅专栏

文章核心总结

主要内容

本文聚焦大语言模型（LLMs）作为训练数据生成器的应用，指出传统简单类别条件提示词（SimPrompt）存在数据多样性不足、继承模型固有偏见等问题。提出AttrPrompt（带多样属性的提示词） 方法，通过指定长度、风格、场景等属性维度构建提示词，生成兼具多样性和属性特征的训练数据。在4个高基数、多领域文本分类数据集（NYT、Amazon等）及多标签分类任务中验证，AttrPrompt在模型性能、数据多样性、成本效率上均优于SimPrompt，仅需5%的查询成本即可达到同等效果，且能缓解区域偏见等问题。

创新点

提出属性驱动的训练数据生成框架，通过明确属性维度（如位置、风格、长度）提升生成数据的多样性和可控性。
首次系统分析LLM生成数据的属性偏见与多样性对下游任务的影响，验证了属性多样性的关键作用。
实现极高的成本效率，AttrPrompt仅需SimPrompt 5%的查询成本，且兼容不同模型规模和现有数据生成方法。
首次将LLM作为训练数据生成器的范式扩展至多标签分类任务，验证了方法的通用性。

翻译部分（Markdown格式）

Abstract

大语言模型（LLMs）近期已被用作各类自然语言处理（NLP）任务的训练数据生成器。尽管已有研究探索了多种利用生成数据训练模型的方法，但这些方法通常依赖简单

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。