快报内容
时间与事件
2026年1月22日至23日,阿里通义千问团队正式开源其新一代语音合成模型Qwen3-TTS系列。模型代码与权重已发布于GitHub、Hugging Face和ModelScope平台,采用Apache 2.0协议,允许免费商用。
技术核心突破
- 多语言与方言支持:覆盖中文、英文、日文、韩文、德文、法文等10种主流语言,并适配四川话、粤语等方言音色,满足全球化应用需求。
- 音色克隆与创造:仅需3秒参考音频即可高精度克隆音色,支持跨语言迁移(如用中文音频合成英文语音);用户可通过自然语言指令自定义音色(如“沙哑的中年男性语气”),实现动态控制情感、韵律。
- 低延迟流式生成:基于Dual-Track混合架构,端到端合成延迟低至97毫秒,输入单字后即刻输出音频首包,适用于实时翻译、直播互动等高时效场景。
- 模型规模选项:提供1.7B(高性能)和0.6B(轻量化)参数版本,平衡不同场景下的效率与效果需求。
性能表现
在官方测试中,Qwen3-TTS在多项指标超越行业标杆:
- 音色克隆:10语言平均词错误率(WER)仅1.835%,说话人相似度达0.789,优于ElevenLabs(WER 4.47%)。
- 长语音生成:10分钟语音的中英文WER分别为2.36%和2.81%,避免重复或中断问题。
- 指令遵循能力:在InstructTTS-Eval中得分75.4%,超过MiniMAX-Voice-Design等闭源模型。
应用场景与影响
- 开发者与创作者:通过ComfyUI插件或API快速集成,用于视频配音、有声书、虚拟人交互等场景,大幅降低语音生成成本。
- 产业升级:其低延迟与多语言能力为智能硬件、实时翻译、智能客服等领域提供关键技术支撑。
- 开源生态意义:作为阿里通义实验室首次开源语音合成模型,推动AI语音技术普及,挑战商业闭源模型垄断地位。
总结
阿里Qwen3-TTS的开源标志着语音合成技术进入低门槛、高性能的新阶段。其多语言克隆、自然语言控制与极致低延迟能力,不仅为开发者提供强大工具,更通过开源开放推动全行业创新,有望加速AI语音技术在全球化应用中的普及。
内容参考来源
- 《阿里Qwen3-TTS全家桶开源上线》- 证券时报网 https://www.stcn.com/article/detail/3607844.html
- 《免费配音利器!阿里 Qwen3‑TTS 全家桶开源》- 微信公众号 https://mp.weixin.qq.com/s/__biz=MzE5MTAzNzkyNA==
- 《阿里深夜开源Qwen3-TTS,最强AI语音模型,太逼真了!》- 网易订阅 https://www.163.com/dy/article/KJV56OBU055616YL.html
- 《阿里开源文本生成语音模型:Qwen3-TTS!10 语种+情感表达+零样本克隆》- 腾讯新闻 https://news.qq.com/rain/a/20260123A019IJ00
- 《阿里通义千问开源超低延迟语音合成模型Qwen3-TTS》- 网易订阅 https://www.163.com/dy/article/KJVK3A8D05566WT8.html
- 《阿里千问:Qwen3-TTS 语音生成模型全家桶开源上线》- IT之家 https://www.ithome.com/0/915/616.htm
- 《阿里通义千问团队首次开源语音合成大模型:Qwen3-TTS》- 微信公众号 https://mp.weixin.qq.com/s/__biz=Mzg2MTIzNDcyNQ==
- 《Qwen3-TTS_百度百科》 https://baike.baidu.com/item/Qwen3-TTS/67075675
- 《通义(阿里云旗下语言模型)_百度百科》 https://baike.baidu.hk/item/通义/64394178
- 《通义(阿里巴巴通义实验室系列模型)_百度百科》 https://baike.baidu.com/item/通义/64394178





没有回复内容