ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek多模态模型技术报告公布:超越GPT-5.4

时间:2026-05-01 12:19:11来源:快科技编辑:快讯

5月1日消息,DeepSeek在GitHub上发布了多模态推理模型及技术报告,题为《Thinking with Visual Primitives(以视觉原语思考)》。

该模型基于DeepSeek V4-Flash(284B总参数、推理时激活13B的MoE架构)构建,提出了一种全新的多模态推理范式。

论文指出现有多模态大模型存在一个被忽视的根本性瓶颈:“指代鸿沟”(Reference Gap),即模型能够“看见”图片内容,但在推理过程中用自然语言构建思维链时,左边那个大的、靠近中央的红色物体这类模糊描述在密集场景中无法精确定位视觉对象,导致注意力漂移并得出错误结论。

此前学界的主流应对方向是提升感知分辨率,但论文认为看见和能说清楚在说哪个是两件不同的事。

该模型的核心创新在于将点坐标和边界框嵌入推理过程本身,使其成为思维链的基本单元。模型在推理时每提到一个视觉对象就同步输出其坐标。

例如“找到一只熊[452,23,804,411],正在爬树,排除,再往左下看,找到另一只[50,447,647,771],站在岩石边缘,符合条件。”坐标不再是事后标注的答案,而是推理过程中消除歧义的空间锚点。

架构层面,模型实现了7056倍的视觉压缩,一张756×756的图片经ViT处理后生成2916个图像块token,经3×3空间压缩合并为324个token,再通过压缩稀疏注意力(CSA)机制将KV缓存进一步压缩4倍,最终仅剩81个视觉KV条目。

作为参照,同等尺寸图片Claude Sonnet 4.6约需870个、Gemini-3-Flash约需1100个。

训练数据方面,团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源,生成超过4000万条训练样本,覆盖计数、空间推理、迷宫导航和路径追踪四类任务。

后训练采用先专家化、后统一策略,分别训练边界框和点坐标两个专家模型,经强化学习优化后通过在线策略蒸馏合并为统一模型。

实验结果在11个基准测试上与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流模型进行了对比。

计数任务上,Pixmo-Count精确匹配得分89.2%,超过Gemini-3-Flash的88.2%,大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。

最具代表性的差距出现在拓扑推理上:迷宫导航得分66.9%,GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6为48.9%,提升约17个百分点;路径追踪得分56.7%,GPT-5.4为46.5%。

不过论文同时指出了当前局限性:模型需要明确触发词才会启用视觉原语机制,极细粒度场景下坐标精度有限,跨场景泛化能力仍有提升空间。

更多热门内容
黄仁勋展望:未来计算将走向AI智能体统一模式 覆盖多领域边缘设备
来源:市场资讯 (来源:IT之家) IT之家 6 月 6 日消息,科技媒体 Tom's Hardware 昨日(6 月 5日)发布博文,报道称在 2026 台北国际电脑展上,黄仁勋指出未来计算将收敛为一套面…

2026-06-06

ChatGPT“锁定模式”全面开放 个人用户可启用降低数据泄露风险
IT之家 6 月 6 日消息,OpenAI 昨天宣布为所有 ChatGPT 个人用户开放“锁定模式”,启动后可限制多项需要互联网 /外部服务的功能,降低数据泄露风险。 同时,锁定模式启用后还将禁用文件下载、…

2026-06-06

全球机器人盛会ICRA 2026:狮子山实验室破叠衣难题,斩获冠军!
正是在这一系统能力支撑下,面对真实机器人环境中的硬件误差、夹爪稳定性、动作偏移、长尾状态恢复和现场不确定性等挑战,实验室参赛团队将仿真阶段积累的策略能力成功迁移到真实场景,并在LeHome Challeng…

2026-06-06

“十五五”规划下AI差异化布局渐显 全国协同发展格局初定
朱明皓建议,发展人工智能产业要加强统筹,在空间布局上明确各地的差异化战略定位,形成场景、算力与技术的全国协同:第一梯队依托京津冀、长三角、粤港澳大湾区,攻坚具身智能等前沿技术,打造国家级应用中试基地,抢占全…

2026-06-06

ChatGPT“锁定模式”全面开放 个人用户可启用降低数据泄露风险
IT之家 6 月 6 日消息,OpenAI 昨天宣布为所有 ChatGPT 个人用户开放“锁定模式”,启动后可限制多项需要互联网 /外部服务的功能,降低数据泄露风险。 同时,锁定模式启用后还将禁用文件下载、…

2026-06-06

交大博士团队创业拓璞数控,凭硬核技术成“商业航天第一股”
这一年,拓璞数控成功研制并签约出售了中国首台用于火箭燃料箱加工的搅拌摩擦焊五轴机床,用实打实的硬科技产品叩开了市场的大门,填补了国内重载五轴双摆头技术的空白。 从紧凑型通用五轴机床(跨度<3m)到大尺寸碳纤…

2026-06-06

比亚迪:“人形机器人代号尧舜禹”等消息均不属实
6 月 6 日消息,据《每日经济新闻》报道,日前,比亚迪自研人形机器人的消息引发广泛关注。网传其自研人形机器人代号“尧舜禹”,计划于 2026 年在内部部署 2 万台。对此,该记者向比亚迪方面求证,对方表示:“‘比亚迪人形机器人代号尧舜禹’‘第七代原型机在深圳和长

2026-06-06