快报内容
时间:2026年1月28日,谷歌DeepMind团队正式宣布这一突破性功能。
核心事件:谷歌为Gemini 3 Flash模型引入Agentic Vision(智能体视觉)能力,彻底改变AI处理图像的方式。传统AI模型对图像仅进行一次性静态扫描,若遗漏细节则只能猜测答案。而新技术赋予AI主动调查能力,通过“思考-行动-观察”循环过程,让AI能够像人类一样逐步分析复杂图像。
技术原理:当用户提交图像和查询时,模型首先分析需求并制定多步计划(思考阶段);随后生成并执行Python代码来操作图像,包括裁剪、旋转、标注或分析(行动阶段);最后将处理后的图像重新纳入上下文进行观察,生成基于视觉证据的最终答案(观察阶段)。这一闭环使AI从被动描述者转变为主动调查者。
实际应用:建筑图纸验证平台PlanCheckSolver.com采用该技术后,准确率提升5%。AI会自动裁剪高分辨率图纸的特定区域(如屋顶边缘),逐块检查是否符合建筑规范。在数手指的示例中,AI不仅给出数量,还通过代码在图像上标注每个手指的边界框和数字,确保结果可验证。处理复杂数据表格时,模型能解析数据并生成Matplotlib图表,用可执行代码替代概率猜测。
性能提升:官方测试显示,Agentic Vision在MMMU、HRBench、OfficeQA等多项视觉基准测试中带来5%-10%的质量提升。这一幅度在已成熟的视觉能力背景下显得尤为显著。
技术影响:Agentic Vision代表了范式转变,使多模态AI从“一次性看图”迈向“多步交互”,从“脑补细节”转向“证据寻证”,从“黑盒推理”升级为“可解释过程”。这对工程审图、工业质检、金融单据识别等错误零容忍场景具有重要意义。
未来发展:谷歌计划使Agentic Vision更加自动化,未来无需显式提示即可触发旋转图像、视觉数学等操作。还将集成网页搜索和以图搜图工具,并扩展到更多模型尺寸。
总结
谷歌Agentic Vision的发布是多模态AI发展的重要里程碑。通过将代码执行与视觉推理相结合,AI首次能够主动操纵图像进行深入分析,显著提升准确率和可靠性。这项技术不仅为专业领域带来实用工具,更重新定义了机器视觉的能力边界,为AI在复杂视觉任务中的实际应用开辟了新道路。
内容参考来源:





没有回复内容