看视频学说话！哥伦比亚大学机器人实现超逼真唇部动作

1个月前更新

时间与地点

这项突破性研究于2026年1月15日正式发表于顶级期刊《科学·机器人学》（Science Robotics），并获选为封面文章。研究工作主要在美国哥伦比亚大学的创意机器实验室完成。

核心人物

事件核心：发生了什么？

哥伦比亚大学的研究团队成功让一个名为EMO的机器人面部系统，通过一种创新的自监督学习方式，自主掌握了与人类说话和唱歌时高度同步的逼真唇部动作。

与传统为每个音素预先编程规则的方法不同，EMO的学习过程分为两个关键阶段：

自我探索：研究人员将EMO置于镜前，让其随机做出数千种面部动作，通过摄像头观察自身，从而建立电机运动与面部形态变化之间的内在联系。这一过程类似于婴儿通过照镜子学习控制自己的身体。
观察模仿：随后，EMO通过分析数小时来自YouTube的人类说话、唱歌视频，学习音频特征与对应唇部动作之间的统计关联。

最终，EMO的AI模型能够直接将输入的音频信号转化为控制26个微型电机的指令，驱动覆盖的柔性硅胶皮肤做出自然、流畅且精准同步的唇部运动，甚至能提前几毫秒预判并调整口型。

技术影响：有什么意义？

攻克“恐怖谷”效应：人形机器人面部表情，尤其是唇部动作的轻微不自然，极易引发人类本能的不适感，即“恐怖谷效应”。此项研究直接针对这一人机交互的核心瓶颈，显著提升了机器人的亲和力与可信度。
开启情感化交互新篇章：当EMO的唇语同步能力与ChatGPT等大型语言模型结合时，机器人将不仅能进行逻辑对话，还能通过微妙的面部表情传递情感，极大增强人机交流的深度和自然度，在教育、医疗陪护、客户服务等领域具有广阔应用前景。
具备跨语言泛化能力：研究表明，即便仅用英语数据训练，EMO也能很好地泛化到中文、法语、西班牙语等多种语言，展现了其底层学习的是人类发音的通用物理规律，而非特定语言的规则。
伦理考量：研究人员也清醒地认识到，随着机器人拟人化程度加深，相关的伦理问题亟待探讨，主张应谨慎推进技术应用，以最大化收益并降低潜在风险。

哥伦比亚大学的这项研究标志着机器人技术向自然情感交互迈出了关键一步。通过让机器人“照镜子”和“看视频”的自学方式，成功解决了长期困扰仿人机器人的唇部动作僵硬问题。这不仅是一次技术上的突破，更为未来人形机器人融入人类社会生活、担任需要情感共鸣的角色扫除了一大障碍，预示着人机关系即将进入一个新阶段。

2人已评分

AI快讯