阿里开源Qwen3-TTS语音模型:支持10种语言、3秒克隆音色,延迟低至97毫秒-AIProductHub产品导航社区

阿里开源Qwen3-TTS语音模型:支持10种语言、3秒克隆音色,延迟低至97毫秒

快报内容

时间与事件

2026年1月22日至23日,阿里通义千问团队正式开源其新一代语音合成模型Qwen3-TTS系列。模型代码与权重已发布于GitHub、Hugging Face和ModelScope平台,采用Apache 2.0协议,允许免费商用。

技术核心突破

  • 多语言与方言支持:覆盖中文、英文、日文、韩文、德文、法文等10种主流语言,并适配四川话、粤语等方言音色,满足全球化应用需求。
  • 音色克隆与创造:仅需3秒参考音频即可高精度克隆音色,支持跨语言迁移(如用中文音频合成英文语音);用户可通过自然语言指令自定义音色(如“沙哑的中年男性语气”),实现动态控制情感、韵律。
  • 低延迟流式生成:基于Dual-Track混合架构,端到端合成延迟低至97毫秒,输入单字后即刻输出音频首包,适用于实时翻译、直播互动等高时效场景。
  • 模型规模选项:提供1.7B(高性能)和0.6B(轻量化)参数版本,平衡不同场景下的效率与效果需求。

性能表现

在官方测试中,Qwen3-TTS在多项指标超越行业标杆:

  • 音色克隆:10语言平均词错误率(WER)仅1.835%,说话人相似度达0.789,优于ElevenLabs(WER 4.47%)。
  • 长语音生成:10分钟语音的中英文WER分别为2.36%和2.81%,避免重复或中断问题。
  • 指令遵循能力:在InstructTTS-Eval中得分75.4%,超过MiniMAX-Voice-Design等闭源模型。

应用场景与影响

  • 开发者与创作者:通过ComfyUI插件或API快速集成,用于视频配音、有声书、虚拟人交互等场景,大幅降低语音生成成本。
  • 产业升级:其低延迟与多语言能力为智能硬件、实时翻译、智能客服等领域提供关键技术支撑。
  • 开源生态意义:作为阿里通义实验室首次开源语音合成模型,推动AI语音技术普及,挑战商业闭源模型垄断地位。

总结

阿里Qwen3-TTS的开源标志着语音合成技术进入低门槛、高性能的新阶段。其多语言克隆、自然语言控制与极致低延迟能力,不仅为开发者提供强大工具,更通过开源开放推动全行业创新,有望加速AI语音技术在全球化应用中的普及。

内容参考来源

  1. 《阿里Qwen3-TTS全家桶开源上线》- 证券时报网 https://www.stcn.com/article/detail/3607844.html
  2. 《免费配音利器!阿里 Qwen3‑TTS 全家桶开源》- 微信公众号 https://mp.weixin.qq.com/s/__biz=MzE5MTAzNzkyNA==
  3. 《阿里深夜开源Qwen3-TTS,最强AI语音模型,太逼真了!》- 网易订阅 https://www.163.com/dy/article/KJV56OBU055616YL.html
  4. 《阿里开源文本生成语音模型:Qwen3-TTS!10 语种+情感表达+零样本克隆》- 腾讯新闻 https://news.qq.com/rain/a/20260123A019IJ00
  5. 《阿里通义千问开源超低延迟语音合成模型Qwen3-TTS》- 网易订阅 https://www.163.com/dy/article/KJVK3A8D05566WT8.html
  6. 《阿里千问:Qwen3-TTS 语音生成模型全家桶开源上线》- IT之家 https://www.ithome.com/0/915/616.htm
  7. 《阿里通义千问团队首次开源语音合成大模型:Qwen3-TTS》- 微信公众号 https://mp.weixin.qq.com/s/__biz=Mzg2MTIzNDcyNQ==
  8. 《Qwen3-TTS_百度百科》 https://baike.baidu.com/item/Qwen3-TTS/67075675
  9. 《通义(阿里云旗下语言模型)_百度百科》 https://baike.baidu.hk/item/通义/64394178
  10. 《通义(阿里巴巴通义实验室系列模型)_百度百科》 https://baike.baidu.com/item/通义/64394178
请登录后发表评论

    没有回复内容