ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek-OCR以图载文:30亿参数小模型解锁AI智能记忆与遗忘新路径

时间:2025-10-23 11:14:32来源:互联网编辑:快讯

AI领域近期因DeepSeek推出的新型小模型引发广泛关注。这款仅含30亿参数的DeepSeek-OCR模型,虽然参数规模远小于主流大模型,却在信息处理效率上展现出突破性成果。研究团队通过实验证明,AI在处理文档信息时,采用视觉理解方式比传统文本处理更具效率优势。

在信息处理成本方面,该模型展现出显著优势。以中文文本为例,传统方法处理千字文档需消耗约1000个文本token,而DeepSeek-OCR通过视觉编码技术,仅需100个视觉token即可达到97%的精度还原。即使将压缩比提升至20倍,仍能保持60%的核心信息准确率。这种压缩效率犹如将整箱书籍精简为便携笔记,既节省空间又保留关键内容。

技术实现的核心在于团队自主研发的DeepEncoder编码器。该系统采用三级处理机制:首先通过窗口注意力机制分块解析内容,继而通过16倍压缩模块去除冗余信息,最后经全局注意力提取核心要素。这种处理方式类似于图书馆的分类管理,将常用书籍置于显眼位置,非常用资料归档存储,在保证检索效率的同时优化存储空间。

与市面主流OCR工具的对比测试显示,上海人工智能实验室2025年发布的MinerU2.0模型处理单页文档需6000余token,而DeepSeek-OCR仅用不足800token即达更优效果。这种差异相当于用小型货车完成原本需要重型卡车运输的任务,且运输质量更高。

研究团队在实验过程中发现意外收获:当信息压缩比达20倍时,低分辨率图像的识别精度下降现象,与人类记忆的衰退规律高度吻合。这种发现促使他们构建出独特的记忆模拟机制——将对话历史按时间远近编码为不同分辨率的视觉token,近期对话保持高清,远期对话逐步压缩,既节省计算资源又符合实际使用需求。

团队的创新思维在模型架构上体现得尤为明显。不同于传统OCR专注识别精度提升,他们将研究重心转向信息压缩的本质问题。这种思路延续了其在MoE架构上的突破——通过"共享专家+路由专家"的组合设计,用5.7亿激活参数实现超越百亿参数模型的效果。

该模型的技术路径突破了传统框架,通过视觉理解重构信息处理范式。这种创新不仅体现在参数效率上,更在于对AI认知本质的探索。当行业还在追求模型规模时,DeepSeek已转向研究如何让AI在资源约束下实现智能决策,这种差异化策略或许正预示着下一代AI技术的发展方向。

更多热门内容
中国“人工太阳”核聚变实验突破:为全球绿色能源转型开辟新路径
在此次实验中,中国科学家成功地在“东方超环”装置内实现了1.5亿摄氏度的高温等离子体,并且成功维持了超过5分钟的稳定状态。这一突破,标志着核聚变技术在温度控制和等离子体稳定性方面取得了重要进展,为未来核聚变的…

2025-10-23

数字赋能点亮泉城:济南能源集团以智慧革新绘就高质量发展新画卷
近年来,济南能源集团深刻践行新发展理念,将数字化转型作为“一把手工程”,贯彻落实“万物互联、过程上线,实时感知、运营可视,决策智能、管控精准,风险可预警、问题可追溯”数字化工作方针,以敢为人先的魄力开启传统能…

2025-10-23

亚马逊“蓝鸟”仓库机器人亮相:整合多任务,提升运营效率并助员工减负
《纽约时报》周二发布的一项调查指出,根据内部战略文件和访谈内容,亚马逊自动化团队预计,到 2027 年可通过自动化技术避免在美国新增超过 16万名员工招聘,从而在每件打包配送的商品上节省约 30 美分的成…

2025-10-23

OpenAI推出ChatGPT Atlas:AI赋能浏览器,智能交互重塑网络生态
仅当用户主动开启“浏览器记忆”时,ChatGPT才会记录浏览中的“事实与见解”,不会存储完整页面内容;用户可将不想被ChatGPT使用的记忆归档,或通过删除相关浏览历史来删除对应的记忆。 不过,也有网友反馈表…

2025-10-23

OpenAI发布Atlas浏览器:AI深度整合,实测体验是惊喜还是平淡?
AI 协助功能:在任何打开的文本输入框中输入内容时,ChatGPT 能提供实时修改建议和智能补全,帮你更高效地码字Agent(代理)模式:能让 ChatGPT 在浏览器中自主完成多步骤任务从今天开始,ma…

2025-10-23