00368 DeepSeek-OCR (论文学习笔记)

大语言模型

Paper

发布日期: 2025-12-14

更新日期: 2025-12-14

前言

DeepSeek-AI DeepSeek-OCR论文的学习笔记。

信息

论文题目：DeepSeek-OCR: Contexts Optical Compression

发表年份：2025

论文地址：https://arxiv.org/abs/2510.18234

pdf 地址：https://arxiv.org/pdf/2510.18234

个人学习笔记：

内容

摘要

我们将DeepSeek-OCR作为通过光学二维映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两个部分组成：DeepEncoder和DeepSeek3B-MoE-A570M，作为解码器。具体来说，DeepEncoder 作为核心引擎，设计用于在高分辨率输入下保持低激活率，同时实现高压缩比，确保视觉标记数量最优且易于管理。实验显示，当文本标记数量不超过视觉标记的10倍（即压缩比<10×时，模型可以实现97%的解码（OCR）精度。即使在20×的压缩比下，OCR准确率仍保持在约60%。这对历史长上下文压缩和大型语言模型中的记忆遗忘机制等研究领域展现出巨大潜力。此外，DeepSeek-OCR还展现出高度的实用价值。在OmniDocBench上，它仅用100个视觉tokens就超过了GOT-OCR2.0（每页256个tokens），并且在使用不到800个视觉tokens的情况下，表现优于MinerU2.0（平均每页6000+tokens）。在生产环境中，DeepSeek-OCR可以生成每天20万+页（单个A100-40G）的LLM/VLM训练数据。代码和模型权重均公开可访问 http://github.com/deepseek-ai/DeepSeek-OCR 。