智谱AI发布GLM-4.7-Flash：30B级最强开源模型，免费调用

11天前更新

快报内容

时间与事件

2026年1月20日，智谱AI正式宣布开源其最新一代混合思考模型GLM-4.7-Flash。该模型将全面替代此前的GLM-4.5-Flash版本，在智谱开放平台BigModel.cn上线并供免费调用。

技术特性

GLM-4.7-Flash采用专家混合模型架构，总参数量为300亿，实际推理时仅激活约30亿参数，实现了高性能与高效率的平衡。模型支持200K令牌的上下文长度，并采用多潜在注意力机制，显著减少KV缓存内存使用，最高可节省73%的内存占用。这种设计使其特别适合边缘设备及资源受限环境下的部署。

性能表现

在多项权威基准测试中，GLM-4.7-Flash展现出卓越性能。在SWE-bench Verified测试中获得59.2分，远超Qwen3-30B的22分和GPT-OSS-20B的34分；在AIME 25数学测试中取得91.6分，τ²-Bench工具协作测试达到79.5分，均在相同参数规模模型中达到开源SOTA水平。

应用场景

该模型在编程任务中表现尤为出色，能够胜任前后端开发任务，实现从需求理解到代码生成的完整流程。除编程场景外，模型还适用于中文写作、翻译、长文本处理以及情感交互和角色扮演等通用人工智能任务。

部署与支持

GLM-4.7-Flash已获得主流推理框架的支持，包括vLLM、SGLang等，可在NVIDIA GPU、AMD和Apple Silicon等平台上运行。对于消费级硬件，在RTX 3090/4090或Mac M系列芯片上运行速度可达60-80+令牌/秒。模型已在Hugging Face和魔搭社区同步开源，供研究与开发人员下载使用。

影响与意义

GLM-4.7-Flash的发布标志着大模型竞争从“参数军备”转向“效率优先”的趋势。该模型为本地AI部署提供了强大工具，使开发者和企业能够在有限资源下实现高性能AI应用，推动了轻量化与场景适配能力的发展。

版本更新提醒

旧版GLM-4.5-Flash将于2026年1月30日正式停止服务，所有未更新的调用请求将自动重定向至新模型。智谱建议用户尽快完成模型调用接口的版本更新，以确保服务连续性。

快报总结

智谱AI开源的GLM-4.7-Flash模型以其创新的混合思考架构和卓越的性能表现，为30B参数级别的轻量化AI模型设立了新标杆。该模型在编程、推理等多场景下的出色能力，结合其免费开源策略和高效的本地部署特性，将为AI开发者社区带来强大助力，推动轻量化大模型技术在更广泛场景中的应用落地。

内容参考来源

GLM-4.7-Flash AI编程助手 GLM-4.7-Flash 免费AI模型开源大模型智谱AI 混合思考模型轻量化部署

2人已评分