ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek新模型:以图载文,用十分之一token存海量信息成现实

时间:2025-10-22 05:57:55来源:互联网编辑:快讯

DeepSeek近期推出了一款名为DeepSeek-OCR的新型模型,该模型通过图像技术革新了数据存储方式,仅需传统方法十分之一的token,即可实现同等信息量的存储。这一突破性成果引发了全球科技界的广泛关注,甚至被业内人士戏称为“让信息论创始人香农和计算机之父冯·诺伊曼都为之侧目”的技术。

与传统OCR技术不同,DeepSeek-OCR实现了逆向创新:将海量文字信息转化为图像进行存储。这种技术路径的转变源于一个简单观察——单张图片包含的信息量远超等量文字描述。例如,在文档理解测试中,该模型仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0模型,在更复杂场景下,800个token的表现更是远超平均需要6000+token的MinerU 2.0模型。

技术团队设计了多层级存储方案:简单文档仅需64个视觉token,内容复杂的页面会自动切换至400个token的Large模式,更可动态启用Gundam模式实现自适应存储。这种分级机制不仅优化了存储效率,更带来意想不到的副作用——模型能自动识别并转换图表数据为Excel格式,将分子结构图转化为标准SMILES代码,甚至能精准定位图片在文档中的位置及其周边文字信息。

这项创新恰好解决了AI训练领域的核心痛点:高质量数据匮乏。传统方法只能提取文档中的文字信息,而图表、插图等二维数据长期被忽视。DeepSeek-OCR的出现,使得单张A100显卡每日即可处理20万页文档,相当于为模型开辟了全新的数据矿藏。更关键的是,图像存储方式使token使用量缩减至原来的十分之一,在压缩20倍的情况下仍能保持60%的准确率,仅损失3.5%的性能就实现了存储效率的十倍提升。

研究团队在实验中发现了有趣的现象:模型采用不同清晰度存储图像的方式,与人类记忆的遗忘曲线高度相似。新近信息以“4K HDR”格式存储,随着时间推移自动降级为480P格式,这种动态调整机制或许能为提升模型上下文处理能力提供新思路。虽然目前尚未得出明确结论,但开源社区已开始围绕这一方向展开探索。

该项目的开源特性加速了技术演进,其训练数据融合了华为Wukong数据集,文字生成借助百度PaddleOCR,图像特征提取采用meta开源的SAM模型,视觉语义理解则整合了OpenAI的CLIP技术。这种跨机构的技术协作,最终催生出能够“用图像思考”的新型AI架构,为多模态大模型的发展开辟了全新路径。

更多热门内容
企业级AI大模型落地全解析:现状挑战、架构方法与未来趋势
现状方面,2025年国内AI市场规模预计超7000亿元,备案大模型超500个,覆盖通用与垂直领域,政务、金融、制造等行业渗透率较高,部署模式分私有化、混合云、公有云API,其中金融、医疗等强监管行业偏好私有化…

2025-10-22

阿里夸克“C计划”或引AI新角逐 聚焦对话式AI欲战字节跳动?
这或对阿里的核心业务边界形成了潜在压力,阿里推出“C计划”可能是一场“攻防兼备”的战略行动。夸克作为阿里在信息服务领域的重要棋子,月活也已超1.5亿,其与电商、本地生活、云业务等虽有关联但更具独立性。 …

2025-10-22

百度世界2025大会来袭,多分论坛共探AI前沿,解锁生活生产新图景
随着AI进入大规模应用临界点,百度世界2025将聚焦智能体、数字人、AI计算、智能硬件等前沿议题,设置多场分论坛,与用户、开发者和企业伙伴共同探索技术赋能应用的下一站。论坛将展示AI对内容创作流程的重构,及…

2025-10-22

商汤沙特与中国电信(阿联酋)携手,共推阿曼智慧城市与数字化转型
商汤科技业务涵盖生成式AI、视觉AI和创新业务,以高效率、低成本、规模化的AI创新和落地,打通商业价值闭环,引领人工智能进入工业化发展阶段。 商汤倡导“发展”的人工智能伦理观,并积极参与有关数据安全、隐私保…

2025-10-22

IBM携手Groq:以编排与速度融合,解锁企业级智能体AI新未来
IBM公司和Groq公司今天宣布建立战略合作伙伴关系,将IBM的watsonx Orchestrate企业级智能体编排和自动化平台与Groq的语言处理单元和GroqCloud推理基础设施相结合。它将IBM的治…

2025-10-22

杭州吴山公园Homer AI助视眼镜亮相,为老年视障者开启智能生活新篇章
联汇科技旗下的Homer AI助视眼镜在此完成首次公开亮相,这一专为老年人和视障人士量身打造的智能设备,凭借其创新技术与实用功能,吸引了众多市民、行业专家及媒体的高度关注,为特殊群体的生活辅助领域注入了全新活…

2025-10-22

中车研究院刘琦:以数据为基、大模型为翼、平台为桥 引领装备制造AI变革
在第十四届中国创新创业大赛工业智能体专业赛说明会暨大赛组委会第一次工作会议结束后,记者就工业智能体建设的核心议题专访了中车研究院人工智能所副所长刘琦,与她深入探讨了数据治理、大模型创新与平台化赋能的实践路径…

2025-10-22

金融人工智能:机遇风险并存,安全治理成高质量发展核心要素
数据安全是AI全生命周期中(采集、传输、存储、处理、销毁)所涉及数据的保密性、完整性、可用性与合规性,特别是个人金融信息的保护。 AI应用安全作为服务或产品被调用和使用时的安全,包括API安全、权限控制、防…

2025-10-22

DeepSeek新模型受硅谷热捧:以视觉压缩文字,或为AI记忆机制开新径
简单来说,由于一张图能包含大量文字(用的token还更少),所以他们想到并验证了“将视觉作为文本压缩媒介”这一方法——就好比优秀的人看书都是扫一眼就知道内容,不必一字一句读完才理解内容。 而且DeepSee…

2025-10-22

中车研究院刘琦:以数据为基、模型为翼、平台为桥 绘就装备制造AI新蓝图
在第十四届中国创新创业大赛工业智能体专业赛说明会暨大赛组委会第一次工作会议结束后,记者就工业智能体建设的核心议题专访了中车研究院人工智能所副所长刘琦,与她深入探讨了数据治理、大模型创新与平台化赋能的实践路径…

2025-10-22