快报内容
2026年1月27日,DeepSeek团队正式发布了新一代光学字符识别模型DeepSeek-OCR 2,并同步开源了模型权重、代码和技术报告《DeepSeek-OCR 2: Visual Causal Flow》。这项发布标志着AI视觉理解能力的一次质的飞跃。
该研究由三位核心成员魏浩然、孙耀峰、李宇琨完成,他们成功开发出了这一突破性的视觉编码架构。DeepSeek-OCR 2的核心创新在于引入了“视觉因果流”(Visual Causal Flow)概念,通过全新的DeepEncoder V2架构,实现了视觉编码从“固定扫描”向“语义推理”的范式转变。
与传统OCR技术机械地从左上角到右下角扫描图像不同,DeepSeek-OCR 2让AI能够根据图像的含义动态重排图像的各个部分,更接近人类的视觉编码逻辑。这种设计打破了传统模型必须按从左到右、从上到下的栅格顺序处理图像的限制,赋予了编码器根据图像语义动态重排视觉Token的能力。
在技术实现上,DeepSeek-OCR 2采用轻量级语言模型(Qwen2-500M)替代了传统的CLIP视觉编码模块,并引入了具有因果注意力机制的“因果流查询”。这种两级级联的1D因果推理结构使得模型能够更精准地还原复杂文档的自然阅读逻辑。
性能表现方面,在权威的OmniDocBench v1.5基准测试中,DeepSeek-OCR 2取得了91.09%的综合得分,较前代提升了3.73%。特别值得注意的是,阅读顺序编辑距离从0.085降至0.057,错误率下降超过30%,这直接证明了因果流推理在复杂文档理解中的巨大优势。
在实际应用环境中,DeepSeek-OCR 2同样展现出显著优势。在线用户日志图像的重复率从6.25%降至4.17%,PDF预训练数据处理的重复率从3.69%降至2.88%。重复率的降低意味着模型生成的文本更干净、更准确,也更适合作为LLM的输入数据。
值得一提的是,DeepSeek-OCR 2在提升性能的同时还保持了高效的压缩能力。其视觉Token数量被严格控制在256到1120之间,与Google的Gemini-3 Pro处于同一水平,远低于部分竞品动辄6000以上的Token消耗。这意味着在实际应用中,它能以更低的算力成本处理更高分辨率、更复杂的文档。
这一技术突破对多个行业将产生深远影响。在金融领域,它能轻松识别复杂的票据、合同和报表;在医疗行业,它可以处理手写病历、处方和医学影像报告;在政务服务中,它能让老旧档案、多格式表单的数字化变得更快、更准。
DeepSeek-OCR 2的发布不仅是一次OCR性能的升级,更具有深远的架构探索意义。DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力,为迈向统一的全模态编码器提供了一条有希望的路径。未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩。
总结
DeepSeek-OCR 2的发布代表了AI视觉理解领域的重要突破。通过引入“视觉因果流”概念和DeepEncoder V2架构,该模型成功实现了从机械扫描到逻辑阅读的技术跃迁,让AI真正具备了类似人类的文档理解能力。这一创新不仅提升了文档识别的准确性和效率,更为未来多模态AI的发展指明了方向,有望在各行各业带来效率革命。
内容参考来源
- 杭州深度求索人工智能基础技术研究有限公司 – 天眼查 – https://www.tianyancha.com/company/7441122995
- 大模型最新进展!阿里、DeepSeek发布! – https://news.qq.com/rain/a/20260127A074K300
- DeepSeek-OCR 2发布,让LLM像人一样读懂复杂文档 – https://news.qq.com/rain/a/20260127A07TNW00
- DeepSeek-OCR 2重磅发布:AI终于学会「像人类一样看世界」 – http://mp.weixin.qq.com/s?__biz=Mzk0Mjc2MjU3Mw==
- DeepSeek又上新了!DeepSeek-OCR 2 发布:让 AI 像人一样“读懂”复杂文档 – http://mp.weixin.qq.com/s?__biz=MzA3OTQ5NTg2Mg==
- 刚刚,DeepSeek又探索新架构了,开源OCR 2 – https://k.sina.cn/article_5953466437_162dab04506709ywag.html
- DeepSeek发布新模型,采用基于千问的新架构 – https://news.qq.com/rain/a/20260127A07S1400
- 刚刚,DeepSeek 发布 OCR 2 – http://mp.weixin.qq.com/s?__biz=MjM5OTA1MDUyMA==
- DeepSeek又探索新架构了,开源OCR 2 – https://news.qq.com/rain/a/20260127A042G500
- 如何评价DeepSeek-OCR-2 模型? – http://mp.weixin.qq.com/s?__biz=Mzk0MzM0NjQ3NA==
- DeepSeek概念股短线拉升,OCR 2重磅发布,让AI学会“人类视觉逻辑” – https://news.qq.com/rain/a/20260127A041KV00
- DeepSeek发布全新DeepSeek-OCR 2模型 – http://mp.weixin.qq.com/s?__biz=MzI5MzY5MjQ3NQ==





没有回复内容