
OpenAI 再次稍微揭开了它的安全测试流程的面纱。上个月,他们分享了一项调查的结果,这项调查研究了 ChatGPT 在根据用户名字生成性别或种族偏见的几率。现在,他们又发布了两篇论文,详细描述了如何对大型语言模型进行“压力测试”(也叫红队测试),目的是找出可能有害或者其他不希望出现的行为。
为什么要测试?
大型语言模型已经被成千上万的人用在各种各样的场景中。但 OpenAI 自己也承认,这些模型有可能生成种族主义、性别歧视或仇恨言论;泄露私人信息;放大偏见和刻板印象;甚至是凭空捏造事实。OpenAI 希望通过公开它的测试方法,展示他们是如何努力减少这些问题的。
怎么测试的?
第一篇论文提到,OpenAI 通过大量的外部测试人员对模型行为进行审查。这些人来自不同领域,比如艺术、科学、法律、医学,甚至是地区政治的专家。他们的任务就是尽可能“搞坏”模型,找出潜在的问题,比如诱导 ChatGPT 说出种族主义的话,或者让 DALL-E 生成暴力的图像。
第二篇论文则描述了一种新的自动化测试方法——用 GPT-4 这样的语言模型来“反过来”试图绕过自己的安全保护措施。这个方法的核心是用 AI 帮助发现更多潜在的问题。
OpenAI 的目标是把人工测试和自动化测试结合起来。人类测试发现的问题可以交给 AI 进一步挖掘,而 AI 找出的问题也可以让人类测试人员验证。OpenAI 的研究员 Lama Ahmad 说:“我们还在探索两者如何更好地互补。”
红队测试是怎么来的?
其实,红队测试并不是新概念。最初它来源于网络安全领域,就是通过模拟攻击来找系统漏洞。OpenAI 第一次使用这个方法是在 2022 年测试 DALL-E 2 时。当时,他们想知道用户会怎么用这个系统


423

被折叠的 条评论
为什么被折叠?



