快报内容
时间与事件
微软于2026年1月21日正式宣布开源其最新的语音识别模型 VibeVoice-ASR。该项目代码和模型已托管在 GitHub 和 Hugging Face 等平台,供开发者和研究人员免费使用。
核心突破:告别音频切片时代
与传统语音识别(ASR)模型需将长音频切割成短片段再分别处理不同,VibeVoice-ASR 的最大创新在于其单次处理长达60分钟连续音频的能力。它基于 Qwen2.5-7B 大语言模型构建,拥有约90亿参数,支持高达 64K Token 的上下文窗口,相当于约60分钟的音频内容。这种端到端的处理方式避免了因切片导致的语义连贯性丢失和说话人追踪混乱问题,实现了真正的“一气呵成”。
三合一结构化输出
VibeVoice-ASR 不仅仅进行语音转写,它在一个统一的模型中联合完成了三项核心任务:
- 自动语音识别:将语音内容转换为文本。
- 说话人分离:自动区分并标记不同的说话人。
- 时间戳标注:精确记录每一句话的开始和结束时间。 最终输出结果为清晰的 JSON 结构化格式,直接呈现“谁(Speaker)、在何时(Timestamps)、说了什么(Content)”,如同一份自动生成的会议纪要,省去了大量后期整理工作。
性能表现与特色功能
根据官方测试数据,VibeVoice-ASR 在 AISHELL-4、AMI 等多个权威语音数据集上表现出色,平均识别准确率高达91.9%。此外,模型引入了 自定义热词 功能,用户可提前输入专业术语、人名等特定词汇,显著提升垂直领域的识别准确率。模型支持中英文识别,并提供了 Python 和 Docker 等多种部署方式,降低了使用门槛。
影响与展望
VibeVoice-ASR 的发布被视为长音频语音识别领域的一次重要突破。其 MIT 开源协议 意味着企业和开发者可以自由商用,这将极大促进其在智能办公(会议记录)、媒体制作(访谈转录)、在线教育(课程转写)及司法政务等场景的落地应用。此举也展示了微软在构建覆盖语音合成与识别全链路技术生态(VibeVoice 家族)方面的战略布局。
总结
微软开源的 VibeVoice-ASR 模型,通过其60分钟超长上下文单次处理和ASR、说话人分离、时间戳标注三合一的能力,有效解决了长音频识别中的核心痛点。凭借高准确率和实用的热词定制功能,它为语音识别技术的实际应用树立了新的标杆,有望推动多个行业的工作流程向更智能化、高效化方向发展。





