快报内容
时间与地点
2026年1月28日,国际顶级学术期刊《Nature》在线发表了由北京智源人工智能研究院(BAAI)主导的Emu3研究成果,预计纸质版将于2月12日正式刊发。这是中国科研机构主导的大模型成果首次登上《Nature》正刊封面,具有里程碑意义。
核心突破
Emu3模型的革命性在于首次验证了“预测下一个词元”(Next-token prediction)这一简单范式可统一处理文本、图像、视频等多模态任务。研究团队将不同模态数据全部转换为离散词元,通过单一Transformer架构进行联合训练,无需依赖扩散模型或组合式架构,实现了多模态理解与生成的高度统一。该设计打破了传统多模态模型“分科而治”的局限,大幅提升了参数效率和通用性。
性能表现
在多项国际基准测试中,Emu3表现卓越:图像生成任务人类偏好得分达70.0,超越Stable Diffusion v1.5;视觉语言理解任务在12个基准中平均得分62.1,媲美LLaVA-1.6;视频生成任务VBench得分81.0,与主流扩散模型相当。此外,Emu3还成功扩展至机器人操控领域,在CALVIN模拟环境中连续任务成功率高达87.0%。
技术影响
Emu3的成功证实了自回归路线作为多模态学习统一范式的可行性,为通用人工智能(AGI)提供了清晰路径。其迭代版本Emu3.5进一步实现了从“预测下一个词元”到“预测下一个状态”的跨越,展现出对物理世界时空规律的学习能力,为具身智能、数字孪生等应用奠定基础。
产业应用
该技术将大幅降低多模态AI开发门槛,推动智能驾驶、医疗影像、内容创作等领域的快速落地。例如,在医疗领域,Emu3可同步处理病历文本、医疗图像和手术视频,辅助医生进行精准诊断。
总结
智源Emu3登上《Nature》封面不仅是中国AI研究的历史性突破,更标志着多模态学习进入“大一统”时代。其极简的“预测下一个词元”范式颠覆了传统技术路径,为全球AI产业提供了可扩展、低成本的统一解决方案,彰显了中国在人工智能原始创新领域的国际竞争力。





