ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek发布多模态模型技术报告:创新框架破解空间参照难题

时间:2026-05-01 00:31:24来源:快讯编辑:快讯

在人工智能领域,多模态大语言模型(MLLMs)的发展备受瞩目。然而,这类模型在处理空间参照任务时,始终面临着一道难以跨越的障碍。近日,DeepSeek团队在GitHub平台正式发布其多模态大模型,并同步公开技术报告,提出了一种创新性的解决方案——基于“视觉原语”的推理框架,有望打破这一瓶颈。

当前,多模态大语言模型虽已取得显著进展,但主流的链式思维(CoT)推理范式仍局限于语言学范畴。为提升模型对视觉细节的识别能力,现有研究多聚焦于高分辨率图像裁剪等技术手段,试图弥合“感知鸿沟”。然而,DeepSeek团队指出,这一思路忽视了更为根本的限制——参照鸿沟。自然语言在描述复杂空间布局时,往往存在模糊性,难以提供精确指引。当模型需要执行涉及严谨空间参照的任务时,这种语言表达的局限性会导致推理链条断裂,出现逻辑崩溃。

针对这一难题,DeepSeek团队提出了“基于视觉原语的思考”(Thinking with Visual Primitives)框架。该框架将点、边界框等空间标记从单纯的视觉输入元素,提升为推理过程中的“基本思维单元”。通过将这些视觉原语直接嵌入模型的思考链路,模型在推理过程中具备了“指代”能力,能够将抽象的认知轨迹锚定到图像的具体物理坐标上,从而实现对空间关系的精确推演。

技术报告显示,该框架采用了高度优化的模型架构,具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低,DeepSeek的多模态模型在具有挑战性的计数和空间推理基准测试上,仍能与GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash等前沿模型相媲美。这一成果为开发更高效、更具可扩展性的System-2类多模态智能指明了方向。

值得一提的是,DeepSeek此前已上线“识图模式”。该模式与“快速模式”“专家模式”并列,并非简单的OCR文字识别,而是真正具备了多模态识别能力。这一功能的推出,进一步验证了DeepSeek在多模态领域的深厚积累和技术实力。

更多热门内容
全球首个机器人通用AI世界模型公司ROBRAIN成立,引领机器人行业迈向新纪元
但在大量资本与技术聚焦语言 AI的同时,一个更深层的问题正在出现:如果未来机器人真正大规模进入现实世界,它们的大脑到底应该如何训练?ROBRAIN 创始人、董事长,同时也是AIROBO 创始人兼董事长先越…

2026-06-02

AI机器人赛道风起云涌:OpenAI入局 英伟达微美全息加速技术落地与产业变革
微美全息未来业绩将持续爆发,不断验证商业模式,根据其发布的2025年年报数据,全年净利润3.47亿元,同比飙升235.9%,微美全息有望成为AI+机器人赛道的全球领军企业,机器人技术壁垒与规模效应逐步显现,将…

2026-06-02

宇树科技73天“闪电”过会,A股首家人形机器人上市企业启航新征程
在星图金融研究院副院长薛洪言看来,宇树科技近三年营收复合增长率超226%,同时人形机器人从几乎为零到撑起“半壁江山”,这本身就回答了市场对于企业是否仍在“烧钱”“炒概念”的疑问。这家与宇树科技同处一城的公司…

2026-06-02

星海图G0.5架构创新引领潮流,七大评测基准全面领跑具身智能领域
G0.5 的选择是彻底去掉这道瓶颈,让同一套模型权重、在同一条自回归序列里,同时完成推理和动作生成。 G0.5 在 R1 Lite 上零样本执行「把毛巾放进洗手池」:在同一自回归流中,模型先生成思考(子任务…

2026-06-02

达实智能2天2板涨21%:液冷服务器+机器人+AI应用助力,后续潜力几何?
该股强势的概念有:液冷服务器+机器人+AI应用在AI应用相关领域,AIoT平台概念活跃!在AIoT平台相关领域,公司AIoT物联网平台深度融合AI与IoT技术,搭载多项判别式AI与生成式AI算法,提供海量丰…

2026-06-02

芯厨师AI炒菜机器人:以“三防”细节,为餐饮长期生意筑牢耐用根基
芯厨师用的是专为后厨油污环境定制的抗油屏幕——不是“防泼溅”,而是“沾满油污后,一擦即净,灵敏如初”。当设备厂商开始真正理解后厨的残酷环境,愿意在看不见的地方投入成本、死磕细节,餐饮老板才能真正从“设备焦虑”…

2026-06-02

宇树单款人形机器人累计下线约11000台,IPO拟募资42.02亿加速智能机器人布局
IT之家 6 月 2 日消息,2 日(今天)下午,Unitree 宇树官方公众号发文宣布:截至 2026 年 5月,宇树单款人形机器人累计生产下线约 11000 台。该数量为一款双足人形的数量,不含其他型号…

2026-06-02

京沈携手共谋智造新篇:机器人多领域应用合作开启新征程
座谈交流中,北京企业重点推介工业自动化、智能传感器等前沿技术产品,沈阳本地企业围绕人形机器人研发、智能制造升级、数字化转型等领域提出合作构想,双方就强强联合开展技术研发、产业链配套、成果落地转化、资源共享等方…

2026-06-02

金戈新材申购在即:一季度净利劲增68% 产能扩张布局新兴赛道蓄势待发
数据显示,2023年至2025年公司产能利用率分别高达到138.86%、105.57%和94.96%,主要产品产销率连续三年均保持在95%以上的高位。在产品性能上,公司核心产品具备高分散性、高填充效率和高稳…

2026-06-02