ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek新模型引硅谷热议:以视觉压缩文字,小参数实现高效能新突破

时间:2025-10-21 11:12:42来源:互联网编辑:快讯

近期,一款名为DeepSeek-OCR的开源模型引发科技界广泛关注,其凭借独特的技术路径和高效能表现,被硅谷诸多专家赞誉为AI领域的突破性成果。这款由DeepSeek团队推出的模型,通过“视觉压缩文本”的创新思路,成功解决了大模型处理长文本时算力消耗过大的难题,甚至被部分观点认为触及了谷歌Gemini等头部模型的“技术护城河”。

核心突破在于“上下文光学压缩”机制。研究团队提出,既然单张图片可承载数千字信息,是否可通过视觉token压缩文本内容,让模型通过“看图”理解信息?基于此,他们构建了仅3B参数的DeepSeek-OCR模型,在主流文档解析基准OmniDocBench上取得新最优成绩。实验数据显示,该模型使用100个视觉token即可超越需256个token的GOT-OCR2.0;当视觉token增至400个时,性能已与前SOTA模型持平;而使用不足800个token时,其表现远超需近7000个token的MinerU2.0。

技术实现依赖两大核心组件:编码器DeepEncoder与解码器DeepSeek3B-MoE-A570M。前者采用“局部-压缩-全局”三级架构,先通过窗口注意力模型提取高分辨率图像的局部特征,再经16倍卷积压缩器大幅减少token数量,最后由全局注意力模型深度解析浓缩后的信息。这种设计使模型在保持高信息密度的同时,将计算开销控制在合理范围。更关键的是,DeepEncoder支持从“Tiny”(512x512分辨率,64个token)到“Gundam”(动态分块,近800个token)的多模式输入,可根据任务需求灵活调整压缩强度。

实际性能验证中,模型展现出强大的文本解析能力。在压缩率小于10倍(文本token数为视觉token数的10倍以内)时,OCR解码准确率高达97%;即使压缩率达20倍,准确率仍保持60%左右。这种“以小博大”的效果,得益于视觉压缩对文本信息的高效表达——一张图片包含的token量远少于直接编码文本所需的量,却能完整保留语义信息。

技术开源后迅速引发行业热议。GitHub平台该模型已获3.3K星标,HuggingFace热度冲至榜单第二,X社交平台上专家评价不断。曾批评AI现状的卡帕西公开表示:“图像作为LLM输入的思路非常巧妙,这确实是更高效的表达方式。”更有观点将其类比为“AI的JPEG时刻”,认为这种视觉-文本压缩范式为AI记忆架构开辟了新路径。

研究团队进一步提出,该技术可模拟人类记忆的“遗忘机制”。通过将近期记忆渲染为高分辨率图像(用更多token保留细节),远期记忆压缩为低分辨率图像(用更少token表示模糊信息),模型能动态分配计算资源。这种设计使模型在处理超长对话或文档时,可像人类一样自然“遗忘”过期信息,从而构建无限长上下文架构。尽管目前该方向仍处于早期研究阶段,但已为解决AI长文本处理中的计算资源暴涨问题提供了新思路。

除技术突破外,DeepSeek的高效研发风格同样引人注目。研究显示,其数据生成方法仅需一块A100-40G GPU,每日即可产出超20万页优质LLM/VLM训练数据。这种低成本、高产出的模式,进一步降低了大模型研发的门槛。

目前,DeepSeek-OCR已支持对金融报表、化学分子式、数学几何图及100多种语言的复杂图像解析。其开源代码和模型权重可通过Hugging Face及GitHub平台获取,为全球开发者提供了研究基础。

更多热门内容
​余承东助力!华为广发“英雄帖”招募顶尖AI人才,共筑AI巅峰梦​
10月21日消息,日前,华为招聘官微发布“全球顶尖AI人才招募令”,称正在打造世界一流的AI战队,构建领先世界的大模型,攀登AGI的巅峰。 据了解,华为招募AI人才有三点要求,分别是学术先锋、技术热情、创新思…

2025-10-21

阿里夸克“C计划”浮出水面:对话式AI布局,剑指字节豆包竞争
【CNMO科技消息】10月21日,有媒体报道称,阿里巴巴旗下智能搜索应用夸克正秘密推进一项代号为“C计划”的AI业务,该计划由夸克核心团队主导,通义实验室多位高级别成员参与,聚焦对话式AI应用布局,预计近日将…

2025-10-21

​2025上半年我国生成式AI用户达5.15亿 中青年高学历群体成核心​
中国互联网络信息中心在会上发布的《生成式人工智能应用发展报告(2025)》显示,截至2025年6月,,较2024年12月增长2.66亿人,用户规模半年翻番;普及率为36.5%。中国互联网络信息中心主任、党委书…

2025-10-21

招商证券携投资者走进科大讯飞,探AI创新成果,共绘产业新蓝图
本次活动通过高管深度访谈、业务分享、展厅参观及分析师解读等环节,为投资者搭建了一个与企业管理层面对面交流的平台,全方位展示了科大讯飞在通用大模型技术创新、行业应用落地及全球化布局方面的战略思考与卓越成就。 他…

2025-10-21

英特尔与沙特会面共商合作,半导体领域或迎区域产业联动新契机
此次互动不仅为英特尔探索新发展路径创造可能,也折射出全球半导体产业布局与区域经济转型的深度联动。 从区域发展视角来看,沙特阿拉伯及阿联酋等海湾国家正积极推动经济结构转型,逐步减少对石油产业的依赖,转而聚焦人工…

2025-10-21