DeepMind发布SIMA 2：打通感知-推理-行动-反思闭环的具身智能体

AIProductHub

4个月前更新

6023

快报内容

时间：2026年1月13日，DeepMind正式发布了SIMA 2智能体系统。

地点：该研究成果由Google旗下DeepMind团队完成，并在其官方平台及相关技术渠道公布。

涉及人物/机构：DeepMind研究团队开发，整合了Gemini基础模型的能力。高级研究科学家Jane Wang等专家强调了该技术对未来机器人技术的重要意义。

事件详情：

SIMA 2（Scalable Instructable Multiworld Agent）是DeepMind在2024年推出的SIMA 1基础上的重大升级。与前代仅能执行简单指令不同，SIMA 2通过整合Gemini Flash-Lite模型，实现了从“指令执行者”到“交互式伙伴”的质变。

这一智能体的核心突破在于完整打通了“感知-推理-行动-反思”闭环架构。它能够处理视觉输入、自然语言指令和环境状态等多种信息源，进行深度融合理解。在训练过程中，SIMA 2基于无限程序化生成的动态环境进行学习，显著提升了泛化能力与情境理解水平。

性能表现方面，在训练过的游戏环境中，SIMA 2的平均任务成功率达到65%，几乎是SIMA 1（33%）的两倍，逼近人类玩家75%的基准线。在未知环境测试中，它在ASKA和MineDojo等未训练游戏中的成功率也比前代提升了12%-13%。

核心能力包括具身对话（能像伙伴一样与用户互动确认指令、反馈进度）、基础推理（能理解“去像成熟番茄的房子”等模糊指令并拆解意图）、复杂指令执行（能处理多步骤任务和跨语言提示）以及多模态提示理解（支持草图、表情符号等非传统指令方式）。

最引人注目的是其自我改进机制。通过双Gemini协作（任务生成器和奖励模型），SIMA 2可在陌生环境中自主提升技能。在ASKA环境测试中，初始仅能完成25%任务的系统经过自改进后，所有任务成功率可达100%，甚至超越人类资深玩家表现。

影响与意义：

SIMA 2的发布标志着具身智能领域的重要进展。其技术验证了“基础模型+具身训练”的可行性，解决了“推理-行动”融合的核心难题。虽然目前主要应用于虚拟环境，但其所展示的导航、工具使用和协作任务执行能力，是未来机器人在现实世界中成为“智能助手”所需的基本组成部分。

这项技术为通用人工智能（AGI） 的发展提供了新路径，展示了通过多样化虚拟环境训练，结合大语言模型增强推理，减少对人类数据依赖的新范式。多家机器人公司已开始与DeepMind合作，探索将SIMA 2技术迁移到真实机器人系统中。

现存局限包括处理长周期任务时易遗忘、精细操作不够稳定、记忆限制依赖有限上下文窗口等。这些也是整个领域仍在努力解决的开放性挑战。

总结

DeepMind推出的SIMA 2具身智能体代表了AI从静态处理向动态交互的重要转变。其融合Gemini推理能力与具身训练的创新架构，使AI智能体首次能够在复杂3D环境中进行真正意义上的理解、推理和自主学习。这项技术不仅为游戏AI带来了革新，更重要的是为未来机器人技术和通用人工智能的发展提供了切实可行的技术路径，推动了整个行业向具身智能时代迈进。

内容参考来源

1人已评分

DeepMind发布SIMA 2：打通感知-推理-行动-反思闭环的具身智能体

快报内容

总结

内容参考来源

AI快讯