Smart Things 作者兼编辑:陈俊达云鹏 在大规模语言模型不断扩大上下文窗口的竞赛中,DeepSeek 提出了独特的技术路径。智东西今天上午报道,10月20日,DeepSeek开放了DeepSeek-OCR模型,并首次提出“光学上下文压缩”的概念,通过将文本转换为图像来实现信息的高效压缩。验证了该方法的可行性。在10倍的压缩比下,DeepSeek-OCR的解码准确率达到97%,实现了近乎无损的压缩。即使压缩比为 20 倍,准确率仍保持在 60% 左右。当相同数量的文本token转换为视觉token(图像)时,DeepSeek-OCR可以用更少的token表示相似的文本内容,为解决大语言模型在长文本处理中高算力开销的问题提供了新的思路。 DeepSeek-OCR也表现出很高的实用价值。 OmniDocBench 表现优于Orms GOT-OCR2.0(每页 256 个令牌)仅使用 100 个视觉令牌,而 MinerU2.0(平均每页约 7000 个令牌)使用不到 800 个视觉令牌。在生产中,DeepSeek-OCR 在单个 A100-40G GPU 上每天生成超过 200,000 页的训练数据,支持大规模文档理解和多模态模型训练。目前,该模型已在Hugging Face上开源,同时还发布了介绍DeepSeek-OCR模型技术内容和理论的白皮书。 DeepSeek-OCR 团队表示,他们的开源模型是对使用视觉模式作为文本信息压缩的有效手段的可能解决方案的初步研究。 DeepSe 值得一提的是,与 nu 之前的 ek 模型往往有几十位作者团队不同,这篇文章只有三位作者:Haoran Wei、Yaofeng Sun 和 Yukun Li。魏浩然,DeepSeek-OCR论文的第一作者,也是GOT-OCR2.0论文的第一作者。去T-OCR2.0是Stepstar去年9月推出的OCR模型。开源地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR 文档链接:https://github.com/deepseek-ai/DeepSeek-OCR/tree/main 1.通过光学压缩可以实现高压缩比。解码需要多少视觉标记?近年来,AI模型的上下文能力不断扩展,从4K到128K和数百万代币,代价是计算能力和显存消耗呈指数级增长。但文本实际上是一种冗余的信息形式。 DeepSeek-OCR 团队认为,“包含文档文本的图像可以用比同等数字文本少得多的标记来表达丰富的信息。这表明使用视觉标记进行光学压缩可以实现更高的压缩率。”目前,业界已经在考虑VLM视觉编码器和端到端OCR模型。基于之前的研究,DeepSeek-OCR 团队发现了尚未得到解答的现有研究问题。对于包含 1000 个单词的文档,需要多少个视觉标记来解码该文档?这个问题在研究“眼见为实”的原理时非常重要。为了解决这个问题,DeepSeek创建了DeepSeek-OCR验证系统。通过“光学化”文本,该模型将数千个文本标记压缩为数百个视觉标记,然后语言模型将其解码回原始文本。 DeepSeek-OCR的架构分为两部分。第一个是 De.epEncoder,它是一种视觉编码器,设计用于处理高分辨率、高度压缩的文档。第二个是 DeepSeek3B-MoE,一种轻量级混合专家语言解码器。 DeepEncoder:显着压缩视觉标记的数量。 DeepEncoder采用SAM+CLIP的双结构设计,结合局部窗口注意力和全局注意力来实现高保真视觉理解,并采用两层16x卷积com压力模块显着减少视觉标记的数量。例如,给定 1024×1024 文档图像作为输入,传统视觉模型将输出 4096 个标记,但 DeepEncoder 可以将其压缩为仅 256 个标记,从而使您可以更好地控制激活的内存量。此外,它还支持多种“分辨率模式”。从轻量级的 Tiny(64 个令牌)到高保真高达(795 个令牌),模型根据任务的复杂性自动选择压缩级别。本文演示了不同分辨率下的压缩效果。乍一看,图像上的文字在小模式下显得有些模糊,但基本可以看清楚。同时,在高保真高达模式下,图像人物的阅读体验与原著的阅读体验基本一致。 ▲实际阅读效果以原纸质照片为准。在实际使用中,一张典型的纸或幻灯片只需 100 个视觉标记即可准确识别 de。使用高达模式可以高精度地还原文本密集的报纸和学术文章。 DeepSeek3B-MoE:解码端激活参数只有5.7亿。 DeepSeek采用内部开发的DeepSeek3B-MoE架构。推理过程中仅激活6个专家模块,总共激活参数约5.7亿个。这种“按需激活”机制让模型拥有强大的表达能力,同时保持低延迟和高能效。非常适合文档OCR、图文生成等场景。数据引擎:从文档到图表、化学式和几何图,DeepSeek还创建了一个庞大的数据集,包括四种主要数据类型:(1)OCR 1.0数据,包括3000万页多语言文档和自然场景文本。 (2) OCR 2.0数据:图表、化学式、几何(3)通用视觉数据:为模型注入基本的图像理解能力。 (4) 纯文本数据:保持语言流畅性和上下文建模。借助该系统,DeepSeek-OCR不仅可以读取单词和分割句子,还可以理解图形、解释化学公式、识别几何形状以及处理图像和文本交织在一起的常见文档。 2. 10倍的压缩效果几乎是无损的,几百个token就代表了7000多个token的效果。 DeepSeek-OCR的训练过程整体比较简单,主要分为两个阶段:DeepEncoder的单机训练和完整的DeepSeek-OCR模型的训练。此外,所谓的“高达大师模式(超高分辨率)”是基于预先训练的DeepSeek-OCR模型,并使用600万个采样数据继续进行微调。学习协议与其他模型相同,因此 DeepSeek-OCR 团队将跳过详细解释。训练 DeepEncoder 遵循 Vary 的方法,使用轻量级语言模型并基于以下令牌预测框架进行训练。本阶段,模型使用了上述OCR 1.0和OCR 2.0数据,以及从LAION数据集中采样的1亿条通用图像数据。 DeepEncoder 训练完成后,DeepSeek-OCR 团队将使用多模式和纯文本数据,使用并行管道策略来训练完整模型。以文本为中心的文档中的 DeepSe 为了验证 ek-OCR 的压缩和解压缩能力,研究团队选择了 Fox 基准进行实验。实验结果表明,在10倍压缩比的情况下,DeepSeek-OCR的解码准确率可以达到97%左右。这表明将来可以将文本压缩 10 倍而几乎没有损失。压缩比大于 10 倍会降低性能。主要原因是文档布局的复杂性以及长文本的事实在 512×512 或 640×640 分辨率下有些模糊。前者可以通过给文本提供统一的布局来解决,而后者可能是未来“遗忘机制”研究的一个特点。即使压缩近 20 倍,该模型仍能保持大约 60% 的准确率。这些结果充分表明,光学上下文压缩是一个有前途的研究方向,无需额外的计算费用,因为多模态系统已经具有视觉编码器结构。去除实验此外,DeepSeek-OCR在现实场景中也表现良好,可以为LLM/VLM预训练生成高质量的数据。在 OmniDocBench 上,DeepSeek-OCR 仅使用 100 个视觉标记(640×640 分辨率),并且优于使用 256 个标记的 GOT-OCR 2.0。在少于 800 个令牌的条件下(Gundam 模式),DeepSeek-OCR 甚至优于需要大约 7000 个视觉令牌的 MinerU 2.0。进一步分析发现,不同类型的文件对于内容的要求不同。e 令牌数量。幻灯片文档仅需要大约 64 个视觉标记即可获得良好的效果。工作簿和报告可以通过 100 个视觉标记实现稳定的性能。由于报纸文档文字量较大,需要使用Gundam或Gundam Master模式才能达到满意的效果。 3. 详细分析所有类型的文件,从财务表格到化学公式。在本文中,DeepSeek-OCR团队演示了DeepSeek-OCR在特定场景下的能力。 DeepSeek-OCR 具有布局识别和 OCR 2.0 功能,可通过二次模型调用对文档图像进行更深入的分析。 DeepSeek 将此功能称为“深度分析”。该模型可以识别图像中不同类型的内容,包括图形、几何形状、化学结构和自然图像。对于金融研究报告,DeepSeek-OCR 可以自动从文档内的图表中提取结构化信息。这个特性对于我来说尤其重要在金融和科学领域。针对书籍和纸张场景,详细分析模式可以生成详细的图像描述,实现图像和文本内容的自动识别和转录。对于化学文档,该模型不仅可以识别化学结构,还可以将其转换为SMILES格式,展示了在STEM(科学、技术、工程和数学)领域的潜在应用价值。 DeepSeek-OCR 还允许对平面几何图形进行结构分析。尽管当前的任务仍然相对困难,但该模型显示了对几何与空间之间关系的初步理解。互联网上的PDF数据涵盖多种语言,包括中文、英文,以及大量的多语言内容。这对于训练具有全球通用性的大型语言模型至关重要。 DeepSeek-OCR能够对大约100种语言进行OCR处理,并支持两种输出格式:布局和无布局。对于多语言测试,DeepSeek-OCR 还可以对阿拉伯语、僧伽罗语等小语种的文档产生高质量的识别结果。该特性使得DeepSeek-OCR能够在多语言环境下稳定运行,为多语言文档分析和跨语言知识提取奠定基础。除了专注于分析文档之外,DeepSeek-OCR 还维护一定的数据。一般视觉理解功能,包括图像描述、物体检测、目标定位(地面连接)等任务。在提供相应的信号词后,模型会详细说明图像的内容、定位特定对象并识别包含文本的图像。它还可以执行 OCR 识别任务。此外,DeepSeek-OCR还具有强大的语言生成和理解能力,因为训练中包含了大量的纯文本数据。请注意,DeepSeek-OCR 尚未经过监督微调ning(SFT)阶段,因此它不是交互模型,某些功能需要通过特定单词激活。结论:高效的信息表示可能是大规模模型的潜在优化方向。 “光学上下文压缩”验证了视觉模态在文本压缩中的有效性,并为大规模语言模型处理超高上下文提供了新的解决路径。Argus。在未来的研究中,DeepSeek-OCR团队计划进一步研究数字和光学文本的混合预训练方法,并通过更详细的“大海捞针”测试来评估光学压缩在现实长文本环境中的性能。从行业角度来看,DeepSeek-OCR代表了另一种提高模型效率的方法:优化信息表示。通过视觉压缩减少标记数量,该模型可以使用相同的计算能力处理更长的上下文内容。这个想法提供了一个有价值的为未来VLM视觉令牌优化、上下文压缩机制和大规模模型遗忘机制的研究提供参考。 DeepSeek 团队在文章末尾写道,“光学上下文压缩仍然具有广泛的研究范围,并指出了新的方向。”这项研究始于 OCR 任务,可能超越文本识别本身。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
请注意:以上内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易H提供。由 或 用户上传并发布。