ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek开源3B小模型DeepSeek-OCR,以“光学压缩”探索文本处理新路径

时间:2025-10-21 18:00:20来源:快讯编辑:快讯

DeepSeek 团队近日开源了一款名为 DeepSeek-OCR 的 30 亿参数模型,通过创新的“光学压缩”技术,在保持高准确率的同时大幅降低文本处理所需的计算资源。该模型将视觉模态引入文本信息处理领域,为解决大语言模型(LLM)处理长文本时的计算瓶颈提供了新思路。

传统 LLM 在处理长文本时面临计算复杂度平方级增长的难题——序列长度每增加一倍,算力消耗将呈四倍增长。DeepSeek-OCR 的突破性在于将文本转换为图像进行压缩处理:通过视觉模态的“光学压缩”,模型用更少的视觉 Token 承载相同信息量。实验数据显示,该技术可实现 7-20 倍的 Token 压缩率,在 10 倍压缩下 OCR 准确率超过 97%,即使压缩 20 倍仍能保持 60% 准确率。

模型架构由编码器 DeepEncoder 和解码器 DeepSeek3B-MoE 组成。DeepEncoder 采用 SAM-base(8000 万参数)与 CLIP-large(3 亿参数)的串联结构,前者负责局部特征提取,后者进行全局信息整合。中间嵌入的 16× 卷积压缩器可将输入图像的 Token 数量大幅削减,例如 1024×1024 图像经处理后,进入全局注意力层的 Token 从 4096 个降至数百个。这种设计使模型既能处理高分辨率输入(支持 512×512 至 1280×1280 多分辨率),又有效控制了内存开销。

解码器部分采用混合专家(MoE)架构,64 个专家中激活 6 个,配合 2 个共享专家,实际激活参数约 5.7 亿。这种设计使 30 亿参数规模的模型兼具 300 亿参数模型的表达能力与 50 亿参数模型的推理效率。在 OmniDocBench 基准测试中,使用 100 个视觉 Token 的 DeepSeek-OCR 表现优于 GOT-OCR2.0(每页 256 个 Token),使用 800 个 Token 时则超越 MinerU2.0(平均每页超 6000 个 Token)。

数据构建方面,团队从互联网收集了 3000 万页多语言 PDF 文档(中英文占 2500 万页),通过粗标注(fitz 提取)和精标注(PP-DocLayout 等模型生成)结合的方式构建训练集。针对小语种数据,创新采用“模型飞轮”机制:先用版面分析模型检测文本区域,再用生成的数据训练 GOT-OCR2.0,最后用训练好的模型标注更多数据,形成数据生成闭环。模型还整合了 300 万条 Word 文档数据以提升公式识别能力,以及 2000 万条场景 OCR 数据(中英文各半)增强自然图像解析能力。

该模型不仅具备基础 OCR 功能,更实现了对复杂图像的结构化解析。通过统一提示词,可自动提取金融图表数据、转换化学结构式为 SMILES 格式、解析几何图形并生成密集描述。在 STEM 领域(如化学、物理、数学),这种能力可显著提升符号和图形密集型场景的处理效率。

研究团队还提出了一个颇具前瞻性的设想:通过光学压缩模拟人类遗忘机制。具体方案是将历史对话内容渲染为图像,通过逐步压缩图像尺寸实现信息模糊化——近期内容保持高分辨率,久远内容自然淡化。这种设计理论上可支撑“无限上下文”处理,使模型在保持近期上下文高保真的同时,降低历史上下文的计算资源占用。

目前,DeepSeek-OCR 已开源原生分辨率的 Tiny(64 Token)、Small、Base、Large 四档模式,以及动态分辨率的 Gundam 模式。在实际生产环境中,单块 A100-40G 显卡每日可生成超 20 万页训练数据,20 个节点(160 块 A100)的集群日处理量可达 3300 万页。团队强调,当前成果仅是起点,后续将开展数字-光学文本交替预训练、“大海捞针”测试等系统性研究,以全面验证光学压缩技术在上下文处理中的潜力。

更多热门内容
余承东助力!华为广发AI人才招募令,打造世界一流AI战队共攀AGI巅峰
10月21日消息,日前,华为招聘官微发布“全球顶尖AI人才招募令”,称正在打造世界一流的AI战队,构建领先世界的大模型,攀登AGI的巅峰。 据了解,华为招募AI人才有三点要求,分别是学术先锋、技术热情、创新思…

2025-10-21

双11邂逅秋景,华为Pura 80 Pro降价1200元,影像实力等你来探
说起今年双11,各家影像手机可以说争奇斗艳,但有一款手机可以说是十分低调的,这就是6月份登场的华为Pura80系列,目前市场表现还没发挥出全部实力。 环顾现在新品影像旗舰,主摄1英寸的,可能还是Pura 8…

2025-10-21

真我GT8系列21日登场,Pro版街拍出彩、标准版配置强劲,影像体验再升级
该系列包括定位“街拍神器”的GT8Pro和“最强标准版”GT8两款机型,凭借全链路深度定制的理光GR影像系统和多项领先配置,有望在旗舰手机市场树立新的标杆。 从官方释放的实拍样张来看,GT8系列在色彩还原、…

2025-10-21

性能与美学的双重盛宴:iQOO 15的自我修养与突破
前面我们详细聊过,它把一块自研电竞芯片Q3塞进机身,像给手机装上一块真正的“独显”,再辅以双轴马达、对称大师双扬和一位随时陪练的AI军师——这一次,性能旗舰的终点不再是冷冰冰的跑分,而是指尖、耳朵,甚至心脏都…

2025-10-21

国家广电总局首颁“便捷看电视”认证,认准标志选电视享便捷观影体验
IT之家 10 月 20日消息,国家广播电视总局今日宣布,国家广播电视总局广播电视规划院为首款符合认证标准的智能电视机颁发“便捷看电视”认证证书。这款率先通过认证的产品由康佳研发打造,即将正式上市销售。 作…

2025-10-21

iQOO 15预约量飙升超264万:首发2K三星珠峰屏成焦点
快科技10月20日消息,今天晚上7点,iQOO 15正式亮相。 iQOO产品副总裁罗锋介绍,iQOO15预约量突破264万,对比上代提升89%,这是iQOO史上最火爆的旗舰手机之一。 作为iQOO最强旗舰,…

2025-10-21

荣耀Magic8系列:以AI终端生态为钥,开启增长与估值新征程
早在2016年Magic一代首发时,便搭载了MagicLive智慧引擎,并首次提出“服务找人”的逻辑,虽无法与今日智能相比,却为智能生态协同埋下种子;2018年,荣耀推出YOYO智慧助手,突破了语音交互,开…

2025-10-21

苹果新系统为液态玻璃UI添“着色”选项,提升界面文字可读性
用户在 iPhone 或者 iPad 设备上,升级到最新 Beta 版本之后,进入“设置”,点击“显示与亮度”,然后在新出现的“液态玻璃”菜单中选择“透明”(Clear)或“着色”(Tinted)模式。同样…

2025-10-21

七彩虹iGame Vulcan“火神全家桶”亮相,Vulcan风扇与水冷将于今年率先登场
IT之家 10 月 17 日消息,七彩虹科技昨日在社交平台晒出了 iGame Vulcan“火神全家桶”的系列照片,这台整机由 C25EAVulcan X 机箱、iGame Z890 Vulcan X 主板…

2025-10-21

红米K90系列提档10月来袭!超大杯ProMAX版配置拉满,影音拍照双升级
最近一段时间里最火的新旗舰手机可能就是小米17系列了,虽然其他品牌也有旗舰手机推出,但无论关注度还是销量,小米都做到了断崖式领先。但这次红米K90 ProMAX超大杯还做了进一步升级,摄像头变成了5000W像…

2025-10-21