ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek新突破:探索视觉-文本压缩边界,高效解决LLM长上下文难题

时间:2025-10-20 19:43:21来源:互联网编辑:快讯

人工智能领域再迎突破,DeepSeek团队在视觉-文本转换领域取得重要进展,其新发布的OCR模型通过创新架构实现了前所未有的压缩效率。该模型采用端到端设计,能够在保持高精度的前提下,用极少量视觉token还原出十倍以上的文本信息,为解决大语言模型的长上下文处理难题提供了全新思路。

研究团队提出的"上下文光学压缩"理论,通过优化视觉表征方式,成功将包含千字文档的图像压缩为数十个视觉token。实验数据显示,在Fox基准测试中,模型在10倍压缩比下仍能保持97%的解码精度,即使压缩比达到20倍,精度仍维持在60%左右。这种压缩效率远超传统OCR模型,为视觉语言模型的数据处理开辟了新路径。

模型的核心创新在于其双编码器架构。视觉编码器DeepEncoder采用SAM-base与CLIP-large的串联设计,通过窗口注意力和全局注意力的组合,在保持3.8亿参数规模的同时,实现了高分辨率图像的有效压缩。特别设计的动态插值位置编码机制,使模型能够自适应不同分辨率的输入,最高可处理超过A4尺寸的超高分辨率图像。

解码器部分采用DeepSeek-3B-MoE架构,通过混合专家模型设计,在激活5.7亿参数的情况下达到了30亿参数模型的表达能力。这种设计使得模型在保持高效推理的同时,能够准确解析包含图表、化学方程式、几何图形等复杂内容的图像,并支持近百种语言的文本识别。

在OmniDocBench基准测试中,该模型展现出显著优势。使用100个视觉token时,其性能已超越需要256个token的GOT-OCR2.0;当token数量控制在800个以内时,更超越了需要6000个token的MinerU2.0。实际部署测试显示,20个计算节点(配备A100-40G GPU)每日可生成3300万页训练数据,大幅降低了LLM/VLM的预训练成本。

研究团队特别强调了模型的通用性。除文档文本识别外,该模型还能完成图像描述、物体检测、语境定位等基础视觉任务。多语言测试表明,模型对包括中文、阿拉伯文在内的复杂文字系统同样具有高效识别能力,这使其在全球范围内的应用成为可能。

技术白皮书详细披露了模型的实现细节。通过两层卷积模块实现的16倍下采样,配合瓦片化处理技术,有效控制了激活内存消耗。特别设计的Gundam模式,通过组合不同分辨率的局部和全局视图,进一步提升了超高分辨率图像的处理能力。这些创新使得单个模型能够同时支持多种分辨率输入。

目前,该模型已在GitHub和HuggingFace平台开源,包含完整代码和预训练权重。研究团队表示,这种视觉-文本压缩范式不仅适用于OCR任务,还可推广到其他需要多模态处理的场景,为提升大规模AI系统的计算效率提供了新的技术路径。实际应用案例显示,该模型在金融、法律、科研等文档密集型领域具有显著优势。

更多热门内容
上海人工智能研究院:聚焦关键技术突破 助力人工智能产业生态建设
【上海人工智能研究院】由上海市与上海交通大学共建,旨在落实国家对人工智能发展的重大决策部署,深入实施创新驱动发展战略成立的人工智能创新平台,于2019年世界人工智能大会上正式揭牌成立。研究院承担上海市人工智…

2025-10-20

10月20日人工智能大模型板块微涨0.22%,安恒信息领涨,资金流向分化
证券之星消息,10月20日人工智能大模型板块较上一交易日上涨0.22%,安恒信息领涨。当日上证指数报收于3863.89,上涨0.63%。深证成指报收于12813.21,上涨0.98%。人工智能大模型板块个股资…

2025-10-20

OpenAI联合创始人卡帕西:AI智能体存短板,距实用化或还需十年
他期待AI能成为人类的协作伙伴而非替代者:在编程场景中,AI可自动调取API文档并验证接口调用准确性;面对不确定问题时,能主动与人类沟通确认,而非盲目猜测;最终通过协作帮助人类提升专业能力,而非单纯提供“可运…

2025-10-20

10月20日人工智能大模型板块微涨,安恒信息领涨,资金流向分化
证券之星消息,10月20日人工智能大模型板块较上一交易日上涨0.22%,安恒信息领涨。当日上证指数报收于3863.89,上涨0.63%。深证成指报收于12813.21,上涨0.98%。人工智能大模型板块个股资…

2025-10-20