快报内容
2026年1月31日,快手公司面向全球正式推出了新一代视频生成模型——可灵3.0系列,目前该系列模型正处于超前内测阶段。这一发布标志着可灵AI正式迈入3.0时代,采用了All-in-one产品理念打造多模态输入输出一体化模型。
可灵3.0系列包括三个主要版本:可灵图片3.0、可灵视频3.0和可灵视频3.0 Omni。图片3.0模型实现了显著技术升级,新增组图生成能力,支持通过单张或多张输入图像批量生成逻辑连贯的系列画面;输出分辨率提升至2K与4K级别,适配影视预演图、场景设定等专业需求;同时增强画面细节一致性,优化纹理、光影的呈现效果以降低“AI感”。
视频模型方面,可灵3.0采用统一的多模态训练框架,支持文本、图像、视频片段等多种输入形式,单次视频生成时长最高可达15秒,并支持3-15秒灵活时长设置。新功能包括智能分镜系统,可根据文本指令自动调度景别与机位;增强主体一致性控制,允许通过多图或视频锚定特定视觉元素;升级音画同步能力,支持中、英、日、韩、西五种语言及方言的精准口型匹配,并实现多人场景下的角色定向发声。
特别值得一提的是视频3.0 Omni版本,它额外支持创建视频主体特征库,可提取3-8秒视频中的角色形象与音色进行还原应用。技术文档显示,此次升级涉及多模态指令解析架构优化、音频采样区间调整及特征解耦重组方案。
可灵AI是快手自主研发的视频生成大模型,自2024年6月上线以来发展迅速。截至2025年7月,可灵累计生成超过2亿个视频,服务超过2万家企业客户,全球用户超过4500万。该模型采用类似Sora的3D时空联合注意力机制,能够实现对复杂时空运动和物理规律的建模,生成的视频分辨率高达1080p,时长最高可达2分钟。
此次3.0系列的发布,展示了可灵AI在技术上的持续进步。新模型实现了更为原生的多模态交互,支持文字、声音、图片和视频等多模态信息输入与输出方式,并融合音画同出能力与主体一致性控制,为AI影像内容创作注入新活力。这些改进使得可灵3.0能够更好地覆盖图片生成、视频生成、视频编辑及后期处理等影视制作全流程。
总结
快手可灵3.0系列的发布代表了国产视频生成模型的重要技术进步。新模型在多模态交互、分辨率提升、智能分镜和音画同步等方面的创新,将显著降低专业级视频内容的创作门槛,为短剧、影视、广告、教育等领域带来更高效的创作工具。随着可灵AI用户规模的持续扩大和技术能力的不断提升,这一技术有望推动整个视频内容创作行业向智能化、高效率方向迈进。





