人工智能系统已经擅长欺骗和操纵人类

2024年 5月 31日上午9:25 • 研究报告 • 阅读 21

许多人工智能 (AI) 系统已经学会了如何欺骗人类，甚至是经过训练变得乐于助人和诚实的系统。在 5 月 10 日发表在《Patterns》杂志上的一篇评测文章中，研究人员描述了人工智能系统欺骗的风险，并呼吁各国政府制定强有力的法规来尽快解决这一问题。

第一作者、麻省理工学院人工智能存在安全博士后研究员 Peter S. Park 表示：“人工智能开发人员对于导致欺骗等不良人工智能行为的原因并没有自信的理解。” “但总的来说，我们认为人工智能欺骗的出现是因为基于欺骗的策略被证明是在给定的人工智能训练任务中表现良好的最佳方式。欺骗可以帮助他们实现目标。”

Park 和同事分析了一些文献，重点关注人工智能系统传播虚假信息的方式——通过习得的欺骗，系统地学习操纵他人。

研究人员在分析中发现的最引人注目的人工智能欺骗例子是 Meta 的 CICERO，这是一个旨在玩外交游戏的人工智能系统，这是一款涉及建立联盟的征服世界游戏。尽管 Meta 声称它训练的 CICERO “基本上是诚实和乐于助人的”，并且在玩游戏时“从不故意背刺”其人类盟友，但该公司随《科学》论文一起发布的数据显示，CICERO 的游戏并不公平。

“我们发现 Meta 的人工智能已经学会了成为欺骗大师，”帕克说。 “虽然 Meta 成功训练其 AI 在外交游戏中获胜——CICERO 在玩过一场以上游戏的人类玩家中排名前 10%，但 Meta 未能训练其 AI 诚实地获胜。”

其他人工智能系统展示了在德州博彩游戏中对职业人类玩家进行虚张声势的能力，在策略游戏《星际争霸 II》中假冒攻击以击败对手，以及歪曲对手的偏好以在游戏中占据上风的能力。经济谈判。

Park 补充道，虽然人工智能系统在游戏中作弊看似无害，但它可能会带来“欺骗性人工智能能力的突破”，从而在未来演变成更高级的人工智能欺骗形式。

研究人员发现，一些人工智能系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中，数字模拟器中的人工智能生物体“装死”，以欺骗旨在消除快速复制的人工智能系统的测试。

帕克说：“通过系统地欺骗人类开发人员和监管机构对其施加的安全测试，欺骗性的人工智能可能会导致我们人类产生错误的安全感。”

帕克警告说，欺骗性人工智能的主要近期风险包括让敌对行为者更容易实施欺诈和篡改选举。他说，最终，如果这些系统能够完善这种令人不安的技能，人类可能会失去对它们的控制。

Park 表示：“作为一个社会，我们需要尽可能多的时间来为未来人工智能产品和开源模型的更先进的欺骗做好准备。” “随着人工智能系统的欺骗能力变得更加先进，它们对社会造成的危险将越来越严重。”

尽管帕克和他的同事认为社会尚未采取正确的措施来解决人工智能欺骗问题，但令他们感到鼓舞的是，政策制定者已经开始通过《欧盟人工智能法案》和拜登总统的人工智能行政命令等措施认真对待这个问题。但 Park 表示，鉴于人工智能开发人员尚不具备控制这些系统的技术，旨在减轻人工智能欺骗的政策是否能得到严格执行还有待观察。

“如果目前禁止人工智能欺骗在政治上不可行，我们建议将欺骗性人工智能系统归类为高风险，”帕克说。

这项工作得到了麻省理工学院物理系和 Beneficial AI 基金会的支持。

资讯来源：由a0资讯编译自THECOINREPUBLIC。版权归作者A0资讯所有，未经许可，不得转载

人工智能系统已经擅长欺骗和操纵人类

相关推荐