阿里千问旗舰推理模型Qwen3-Max-Thinking发布，多项性能刷新全球纪录

4个月前更新

快报内容

2026年1月26日，阿里巴巴正式推出千问旗舰推理模型Qwen3-Max-Thinking，这是通义千问团队迄今为止最强大的推理模型。该模型总参数量超万亿（1T），预训练数据量高达36T Tokens，通过总参数、强化学习、推理计算的规模扩展，实现了性能的飞跃性提升。

在技术层面，Qwen3-Max-Thinking引入了一项创新的测试时扩展（Test-time Scaling）机制。与业界普遍采用的简单增加并行推理路径不同，千问的新机制能够对先前推理结果进行“经验提取”式提炼，并据此进行多轮自我迭代，在相同上下文中实现更高效的推理计算。这一技术突破使得模型在推理性能提升的同时更加经济高效。

性能表现方面，Qwen3-Max-Thinking在19项公认的大模型基准测试中刷新了数项最佳表现纪录。特别是在科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等关键性能基准测试中，其表现超过了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等国际顶尖模型。

具体来看，在中文权威测评C-Eval中，Qwen3-Max-Thinking以93.7%的得分稳居全球第一；在对抗性复杂交互测试Arena-Hard v2中，它以90.2%的得分大幅领先竞争对手；在智能体工具搜索测试HLE (w/tools)中，它以49.8%的得分夺冠，展现出强大的自主问题解决能力。

面向智能体Agent时代，Qwen3-Max-Thinking大幅增强了自主调用工具的原生Agent能力。通义团队对模型进行了基于规则奖励与模型奖励的联合强化学习训练，使模型能够自主选用搜索、个性化记忆和代码解释器等核心Agent工具功能，像专业人士一样水平进行问题解答。

模型可用性方面，目前开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型，企业用户可通过阿里云百炼获取新模型API服务，普通用户也可通过千问PC端和网页端试用模型。千问APP即将接入新模型，向所有用户开放免费体验。

阿里云通义千问大模型负责人林俊旸表示，Qwen3-Max-Thinking代表着Qwen3系列模型的收尾，后续千问将迈向下一代模型的开发。这一发布也被视为2025年阿里宣布的额外AI基础设施投入的重要组成部分，反映了阿里巴巴既要开发服务，也要开发支撑该技术的基础设施的意图。

总结

阿里千问Qwen3-Max-Thinking的发布是国产大模型发展的一个重要里程碑。该模型不仅在多项关键性能指标上达到甚至超越了国际顶尖水平，更通过测试时扩展和自适应工具调用等技术创新，为AI智能体的实际应用奠定了坚实基础。随着模型全面接入阿里生态和向开发者开放，人工智能技术将更深入地融入日常生活和各行各业，推动数字化智能化转型进入新阶段。

内容参考来源