阿里开源Qwen3-TTS语音模型：支持10种语言、3秒克隆音色，延迟低至97毫秒

4个月前更新

2026年1月22日至23日，阿里通义千问团队正式开源其新一代语音合成模型Qwen3-TTS系列。模型代码与权重已发布于GitHub、Hugging Face和ModelScope平台，采用Apache 2.0协议，允许免费商用。

多语言与方言支持：覆盖中文、英文、日文、韩文、德文、法文等10种主流语言，并适配四川话、粤语等方言音色，满足全球化应用需求。
音色克隆与创造：仅需3秒参考音频即可高精度克隆音色，支持跨语言迁移（如用中文音频合成英文语音）；用户可通过自然语言指令自定义音色（如“沙哑的中年男性语气”），实现动态控制情感、韵律。
低延迟流式生成：基于Dual-Track混合架构，端到端合成延迟低至97毫秒，输入单字后即刻输出音频首包，适用于实时翻译、直播互动等高时效场景。
模型规模选项：提供1.7B（高性能）和0.6B（轻量化）参数版本，平衡不同场景下的效率与效果需求。

在官方测试中，Qwen3-TTS在多项指标超越行业标杆：

阿里Qwen3-TTS的开源标志着语音合成技术进入低门槛、高性能的新阶段。其多语言克隆、自然语言控制与极致低延迟能力，不仅为开发者提供强大工具，更通过开源开放推动全行业创新，有望加速AI语音技术在全球化应用中的普及。

《阿里Qwen3-TTS全家桶开源上线》- 证券时报网 https://www.stcn.com/article/detail/3607844.html
《免费配音利器！阿里 Qwen3‑TTS 全家桶开源》- 微信公众号 https://mp.weixin.qq.com/s/__biz=MzE5MTAzNzkyNA==
《阿里深夜开源Qwen3-TTS，最强AI语音模型，太逼真了！》- 网易订阅 https://www.163.com/dy/article/KJV56OBU055616YL.html
《阿里开源文本生成语音模型：Qwen3-TTS！10 语种+情感表达+零样本克隆》- 腾讯新闻 https://news.qq.com/rain/a/20260123A019IJ00
《阿里通义千问开源超低延迟语音合成模型Qwen3-TTS》- 网易订阅 https://www.163.com/dy/article/KJVK3A8D05566WT8.html
《阿里千问：Qwen3-TTS 语音生成模型全家桶开源上线》- IT之家 https://www.ithome.com/0/915/616.htm
《阿里通义千问团队首次开源语音合成大模型：Qwen3-TTS》- 微信公众号 https://mp.weixin.qq.com/s/__biz=Mzg2MTIzNDcyNQ==
《Qwen3-TTS_百度百科》 https://baike.baidu.com/item/Qwen3-TTS/67075675
《通义（阿里云旗下语言模型）_百度百科》 https://baike.baidu.hk/item/通义/64394178
《通义（阿里巴巴通义实验室系列模型）_百度百科》 https://baike.baidu.com/item/通义/64394178

1人已评分

AI快讯