首页 > 快讯要用大模型加持各种机器人？DeepMind 的“非凡”新型人工智能出手了

要用大模型加持各种机器人？DeepMind 的“非凡”新型人工智能出手了

2023年10月09日 11:29

机器人技术的一大挑战是必须投入大量精力来训练每个机器人、任务和环境的机器学习模型。

现在，谷歌 DeepMind 和其他 33 个研究机构的一个新项目旨在通过创建一个通用人工智能系统来应对这一挑战，该系统可以与不同类型的物理机器人一起工作并执行许多任务。

谷歌机器人公司高级软件工程师 Pannag Sanketi 表示：“我们观察到，机器人是伟大的专家，但却不是多面手。” “通常，必须为每个任务、机器人和环境训练一个模型，更改单个变量通常需要从头开始。”

为了克服这个问题，让训练和部署机器人变得更加容易和快捷，这个被称为 Open-X Examples 的新项目引入了两个关键组件：一个包含多种机器人类型数据的数据集，以及一系列能够跨机器人传递技能的模型，任务范围广泛。

研究人员在机器人实验室和不同类型的机器人上对模型进行了测试，与常用的机器人训练方法相比，取得了更好的结果。

▌结合机器人数据

通常，每种不同类型的机器人及其独特的传感器和执行器集都需要专门的软件模型，就像每个生物体的大脑和神经系统如何进化以适应该生物体的身体和环境一样。

Open X-Embodiment 项目的诞生源于这样一种直觉：结合来自不同机器人和任务的数据可以创建一个优于专用模型的通用模型，适用于所有类型的机器人。

这个概念部分受到大型语言模型（LLM）的启发，当在大型通用数据集上进行训练时，该模型可以匹配甚至优于在狭窄的特定任务数据集上训练的较小模型。令人惊讶的是，研究人员发现同样的原理也适用于机器人。

为了创建 Open X-Embodiment 数据集，研究团队收集了来自不同国家 20 个机构的 22 个机器人实施例的数据。该数据集包括超过100万集的500多项技能和15万项任务的示例(一集是机器人每次试图完成一项任务时采取的一系列动作)。

随附的模型基于 Transformer，深度学习架构也用于大型语言模型。RT-1-X 建立在Robotics Transformer 1 (RT-1)之上，这是一个适用于现实世界大规模机器人技术的多任务模型。

RT-2-X 建立在 RT-1 的后继者RT-2的基础上，RT-2 是一种视觉语言动作 (VLA) 模型，可以从机器人和网络数据中学习，并且可以响应自然语言命令。

研究人员在五个不同的研究实验室的五种常用机器人上测试了 RT-1-X 的各种任务。与为每个机器人开发的专用模型相比，RT-1-X 在拾取和移动物体以及开门等任务上的成功率高出 50%。该模型还能够将其技能推广到不同的环境，而不是适合特定视觉设置的专用模型。这表明，在大多数任务中，经过不同示例集训练的模型都优于专业模型。论文称，该模型可以应用于从机器人手臂到四足动物的各种机器人。

加州大学伯克利分校副教授、该论文的合著者谢尔盖·莱文（Sergey Levine）写道：“对于任何做过机器人研究的人来说，你都会知道这是多么了不起：这种模型‘从来’不会在第一次尝试时就成功，但这个模型却成功了。” 。

在紧急技能、未包含在训练数据集中的新任务方面，RT-2-X 的成功率是 RT-2 的三倍。特别是，RT-2-X 在需要空间理解的任务上表现出更好的性能，例如区分将苹果移到布附近与将其放在布上的区别。

研究人员在一篇宣布Open X和RT-X的博客文章中写道：“我们的研究结果表明，与其他平台的数据共同训练为RT-2-X注入了原始数据集中没有的额外技能，使其能够执行新的任务。”。

▌为机器人研究采取未来措

展望未来，科学家们正在考虑将这些进展与DeepMind 开发的自我改进模型RoboCat的见解相结合的研究方向。RoboCat学习在不同的机械臂上执行各种任务，然后自动生成新的训练数据以提高其性能。

Sanketi 认为，另一个潜在的方向可能是进一步研究不同的数据集混合如何影响跨实施例泛化以及改进的泛化如何实现。

该团队开源了 Open X-Embodiment 数据集和小型版本的 RT-1-X 模型，但没有开源 RT-2-X 模型。

桑凯蒂说：“我们相信这些工具将改变机器人的训练方式，并加速这一领域的研究。” “我们希望开源数据并提供安全但有限的模型将减少障碍并加速研究。机器人技术的未来依赖于让机器人能够互相学习，最重要的是，让研究人员能够互相学习。”

责任编辑：

文章来源：http://www.anfangnews.com/2023/1009/9357.shtml