随机机器人更可靠

西北大学工程师开发了一种专为智能机器人设计的新人工智能（AI）算法。通过帮助机器人快速、可靠地学习复杂的技能，新方法可以显着提高机器人在一系列应用中的实用性和安全性，包括自动驾驶汽车、送货无人机、家庭助理和自动化。

该算法被称为最大扩散强化学习（MaxDiff RL），其成功在于它能够鼓励机器人尽可能随机地探索其环境，以获得多样化的经验。这种“设计的随机性”提高了机器人收集的有关其周围环境的数据的质量。而且，通过使用更高质量的数据，模拟机器人表现出更快、更高效的学习能力，从而提高了其整体可靠性和性能。

在与其他人工智能平台进行测试时，使用西北大学新算法的模拟机器人始终优于最先进的模型。事实上，新算法运行得非常好，机器人学会了新任务，然后在一次尝试中成功执行它们——第一次就做对了。这与当前的人工智能模型形成鲜明对比，当前的人工智能模型通过反复试验来实现较慢的学习速度。

该研究将于周四（5 月 2 日）发表在《自然·机器智能》杂志上。

“其他人工智能框架可能有些不可靠，”领导这项研究的西北大学托马斯·贝鲁塔 (Thomas Berrueta) 说。 “有时他们会完全完成任务，但有时，他们会完全失败。使用我们的框架，只要机器人能够解决任务，每次你打开机器人时，你都可以期望它做这使得解释机器人的成功和失败变得更加容易，这在日益依赖人工智能的世界中至关重要。”

Berrueta 是西北大学的总统研究员和博士学位。麦考密克工程学院机械工程专业的候选人。机器人专家托德·墨菲 (Todd Murphey) 是麦考密克大学机械工程教授，也是 Berrueta 的顾问，也是该论文的资深作者。 Berrueta 和 Murphey 与同为博士的 Allison Pinosky 共同撰写了这篇论文。墨菲实验室的候选人。

无形的脱节

为了训练机器学习算法，研究人员和开发人员使用大量的大数据，这些数据是人类精心过滤和整理的。人工智能从这些训练数据中学习，通过反复试验，直到达到最佳结果。虽然这个过程对于 ChatGPT 和 Google Gemini（以前称为 Bard）等非实体系统很有效，但它不适用于机器人等实体人工智能系统。相反，机器人自己收集数据——无需人类管理者的帮助。

“传统算法在两个不同的方面与机器人技术不兼容，”墨菲说。 “首先，脱离实体的系统可以利用物理定律不适用的世界。其次，个人的失败不会产生任何后果。对于计算机科学应用来说，唯一重要的是它在大多数情况下都是成功的。在机器人技术中，一次失败可能是灾难性的。”

为了解决这种脱节问题，Berrueta、Murphey 和 Pinosky 旨在开发一种新颖的算法，确保机器人能够随时随地收集高质量的数据。 MaxDiff RL 的核心是命令机器人更加随机地移动，以收集有关其环境的全面、多样化的数据。通过自我策划的随机经验学习，机器人获得完成有用任务所需的技能。

第一次就做对

为了测试新算法，研究人员将其与当前最先进的模型进行了比较。研究人员利用计算机模拟，要求模拟机器人执行一系列标准任务。总体而言，使用 MaxDiff RL 的机器人比其他模型学习得更快。他们还比其他人更一致、更可靠地正确执行任务。

也许更令人印象深刻的是：使用 MaxDiff RL 方法的机器人通常可以在一次尝试中成功地正确执行任务。即使在他们一无所知的情况下开始也是如此。

“我们的机器人更快、更敏捷——能够有效地概括他们所学到的知识并将其应用到新的情况中，”贝鲁塔说。 “对于机器人无法承受无休止的试错时间的现实应用来说，这是一个巨大的好处。”

由于 MaxDiff RL 是一种通用算法，因此可用于多种应用。研究人员希望它能解决阻碍该领域发展的基本问题，最终为智能机器人技术的可靠决策铺平道路。

皮诺斯基说：“这不仅仅适用于四处移动的机器人车辆。” “它也可以用于固定机器人，例如厨房中的机械臂，它学习如何装载洗碗机。随着任务和物理环境变得更加复杂，在学习过程中考虑体现的作用变得更加重要这是朝着执行更复杂、更有趣的任务的真正系统迈出的重要一步。”

这项名为“最大扩散强化学习”的研究得到了美国陆军研究办公室（拨款号 W911NF-19-1-0233）和美国海军研究办公室（拨款号 N00014-21-1-2706）的支持。

资讯来源：由a0资讯编译自THECOINREPUBLIC。版权归作者A0资讯所有，未经许可，不得转载

随机机器人更可靠

相关推荐