OpenAI 是怎么“压力测试”大型语言模型的？

最新推荐文章于 2026-06-14 14:12:04 发布

原创

最新推荐文章于 2026-06-14 14:12:04 发布 · 1.5k 阅读

·

8

·

标签

#压力测试 #语言模型 #人工智能

OpenAI 再次稍微揭开了它的安全测试流程的面纱。上个月，他们分享了一项调查的结果，这项调查研究了 ChatGPT 在根据用户名字生成性别或种族偏见的几率。现在，他们又发布了两篇论文，详细描述了如何对大型语言模型进行“压力测试”（也叫红队测试），目的是找出可能有害或者其他不希望出现的行为。

为什么要测试？

大型语言模型已经被成千上万的人用在各种各样的场景中。但 OpenAI 自己也承认，这些模型有可能生成种族主义、性别歧视或仇恨言论；泄露私人信息；放大偏见和刻板印象；甚至是凭空捏造事实。OpenAI 希望通过公开它的测试方法，展示他们是如何努力减少这些问题的。

怎么测试的？

第一篇论文提到，OpenAI 通过大量的外部测试人员对模型行为进行审查。这些人来自不同领域，比如艺术、科学、法律、医学，甚至是地区政治的专家。他们的任务就是尽可能“搞坏”模型，找出潜在的问题，比如诱导 ChatGPT 说出种族主义的话，或者让 DALL-E 生成暴力的图像。

第二篇论文则描述了一种新的自动化测试方法——用 GPT-4 这样的语言模型来“反过来”试图绕过自己的安全保护措施。这个方法的核心是用 AI 帮助发现更多潜在的问题。

OpenAI 的目标是把人工测试和自动化测试结合起来。人类测试发现的问题可以交给 AI 进一步挖掘，而 AI 找出的问题也可以让人类测试人员验证。OpenAI 的研究员 Lama Ahmad 说：“我们还在探索两者如何更好地互补。”

红队测试是怎么来的？

其实，红队测试并不是新概念。最初它来源于网络安全领域，就是通过模拟攻击来找系统漏洞。OpenAI 第一次使用这个方法是在 2022 年测试 DALL-E 2 时。当时，他们想知道用户会怎么用这个系统

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。