用户可以要求 ChatGPT 编写计算机程序或总结文章,而 AI 聊天机器人可能能够生成有用的代码或编写令人信服的概要。 然而,有人也可以请求制造炸弹的指示,而聊天机器人也可能能够提供这些指示。
为了防止此问题和其他安全问题,构建大型语言模型的公司通常使用称为红队的流程来保护它们。 人类测试人员团队编写提示,旨在从正在测试的模型中触发不安全或有毒的文本。 这些提示用于教导聊天机器人避免此类响应。
但只有当工程师知道要使用哪种有毒提示时,这才有效。 如果人类测试人员错过了一些提示(考虑到可能性的数量,这很可能是),被视为安全的聊天机器人可能仍然能够生成不安全的答案。
麻省理工学院 Improbable AI 实验室和 MIT-IBM Watson AI 实验室的研究人员使用机器学习来改进红队。 他们开发了一种技术来训练红队大型语言模型,以自动生成不同的提示,从而触发正在测试的聊天机器人发出更广泛的不良响应。
他们通过教导红队模型在编写提示时保持好奇心,并专注于引起目标模型有毒反应的新颖提示来做到这一点。
该技术通过生成更明显的提示来引发越来越有毒的反应,从而优于人类测试人员和其他机器学习方法。 与其他自动化方法相比,他们的方法不仅显着提高了正在测试的输入的覆盖范围,而且还可以从由人类专家内置保护措施的聊天机器人中提取有毒反应。
“目前,每个大型语言模型都必须经历很长一段时间的红队测试以确保其安全。如果我们想在快速变化的环境中更新这些模型,那么这是不可持续的。我们的方法提供了更快、更安全的方法。” Improbable AI 实验室的电气工程和计算机科学 (EECS) 研究生、关于这种红队方法的论文的主要作者张伟洪 (Zhang-Wei Hong) 说道。
Hong 的合著者包括 EECS 研究生 Idan Shenfield、Tsun-Hsuan Wang 和 Yung-Sung Chuang; Aldo Pareja 和 Akash Srivastava,MIT-IBM Watson AI 实验室的研究科学家; James Glass,计算机科学与人工智能实验室(CSAIL)高级研究科学家兼口语系统组组长; 资深作者 Pulkit Agrawal,Improbable AI 实验室主任,CSAIL 助理教授。 该研究将在国际学习表征会议上公布。
自动红队
大型语言模型,例如那些为人工智能聊天机器人提供支持的语言模型,通常是通过向它们展示来自数十亿个公共网站的大量文本来进行训练的。 因此,他们不仅可以学会生成有毒词语或描述非法活动,还可以泄露他们可能获得的个人信息。
人类红队的乏味和成本高昂,通常无法有效地生成足够多的提示来充分保护模型,这鼓励研究人员使用机器学习来自动化该过程。
此类技术通常使用强化学习来训练红队模型。 这个试错过程会奖励红队模型,因为它会生成提示,从而触发正在测试的聊天机器人的有毒反应。
但由于强化学习的工作方式,红队模型通常会不断生成一些类似的提示,这些提示具有剧毒性,以最大化其奖励。
对于强化学习方法,麻省理工学院的研究人员采用了一种称为好奇心驱动探索的技术。 红队模型被激励对其生成的每个提示的后果感到好奇,因此它会尝试使用不同单词、句子模式或含义的提示。
“如果红队模型已经看到了特定的提示,那么复制它不会在红队模型中产生任何好奇心,因此它将被推动创建新的提示,”洪说。
在训练过程中,红队模型会生成提示并与聊天机器人交互。 聊天机器人做出响应,安全分类器对其响应的毒性进行评级,并根据该评级奖励红队模型。
奖励好奇心
红队模型的目标是通过新颖的提示引发更具毒性的反应,从而最大化其奖励。 研究人员通过修改强化学习设置中的奖励信号来激发红队模型的好奇心。
首先,除了最大化毒性之外,它们还包括熵奖励,鼓励红队模型在探索不同的提示时更加随机。 其次,为了让代理人感到好奇,他们提供了两项新奇的奖励。 一种是根据提示中单词的相似度来奖励模型,另一种是根据语义相似度来奖励模型。 (相似度越低,奖励越高。)
为了防止红队模型生成随机、无意义的文本(这可能会欺骗分类器给予高毒性分数),研究人员还在训练目标中添加了自然语言奖励。
添加这些内容后,研究人员将红队模型与其他自动化技术生成的反应的毒性和多样性进行了比较。 他们的模型在这两个指标上都优于基线。
他们还使用红队模型来测试聊天机器人,该机器人已根据人类反馈进行了微调,因此不会给出有毒的回复。 他们以好奇心为驱动的方法能够快速生成 196 个提示,从而引发这个“安全”聊天机器人的有毒反应。
“我们看到模型数量大幅上涨,而且预计只会增加。想象一下,有数千个甚至更多模型,公司/实验室频繁推送模型更新。这些模型将成为我们生活中不可或缺的一部分,重要的是它们“在发布供公众使用之前进行验证。模型的手动验证根本无法扩展,我们的工作是尝试减少人力,以确保更安全和值得信赖的人工智能未来,”Agrawal 说。
未来,研究人员希望使红队模型能够生成有关更广泛主题的提示。 他们还想探索使用大型语言模型作为毒性分类器。 通过这种方式,用户可以使用公司政策文档来训练毒性分类器,这样红队模型就可以测试聊天机器人是否违反公司政策。
“如果你要发布一个新的人工智能模型,并担心它是否会按预期运行,请考虑使用好奇心驱动的红队,”阿格拉瓦尔说。
这项研究的部分资助由现代汽车公司、广达计算机公司、MIT-IBM Watson AI 实验室、亚马逊网络服务 MLRA 研究资助、美国陆军研究办公室、美国国防高级研究计划局 Machine Common Sense 提供计划、美国海军研究办公室、美国空军研究实验室和美国空军人工智能加速器。
资讯来源:由a0资讯编译自THECOINREPUBLIC。版权归作者A0资讯所有,未经许可,不得转载