ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek另辟蹊径:以“赛博手指”破解多模态推理视觉指代难题

时间:2026-05-01 10:29:52来源:互联网编辑:快讯

五一假期前夕,人工智能领域迎来一份引人注目的技术报告——DeepSeek团队发布了关于视觉多模态模型的新突破。这份报告没有延续行业主流的“提升图像分辨率”路径,而是将研究重心转向多模态推理中一个长期被忽视的核心问题:如何确保模型在推理过程中始终指向用户意图的同一视觉对象。

传统多模态模型在处理复杂场景时,常因语言指代模糊导致推理崩溃。例如,当图像中出现多只狗时,模型难以理解“左边那只”的具体所指;在需要计数或追踪路径的任务中,模型容易混淆已处理与未处理的对象。这种困境源于自然语言在空间定位和拓扑关系描述上的先天局限——语言擅长抽象概念表达,却难以精确描述视觉空间中的具体位置和连接关系。

DeepSeek提出的解决方案是引入“视觉基元”概念,将边界框和点坐标提升为模型推理的基本单元。通过让模型在输出文本中显式标注视觉对象的空间坐标(如“狗的位置在[[x1,y1,x2,y2]]”),实现“边推理边指向”的机制。这种设计使模型每一步思考都锚定在具体图像坐标上,有效解决了语言指代漂移问题。技术演示显示,在迷宫导航任务中,模型能输出完整的坐标路径序列,每个坐标对应实际走过的位置,推理过程完全可追溯。

与OpenAI“thinking with images”路线形成鲜明对比的是,DeepSeek选择了一条更符号化的技术路径。OpenAI侧重让模型在内部视觉工作台中操作图像(如裁剪、旋转),而DeepSeek则将坐标信息显式融入推理链,使中间过程完全透明。这种差异体现在应用场景上:OpenAI的方案适合需要图像生成的创意任务,而DeepSeek的机制更适用于需要精确空间推理的领域,如机器人导航、工业质检等。

报告中最令人瞩目的创新是“压缩稀疏注意力”(CSA)机制。通过将图像先压缩为少量视觉token,再进一步压缩KV缓存表示,DeepSeek实现了惊人的压缩比——一张756×756图像的57万个像素最终被压缩为81个KV缓存条目,压缩比达7056倍。这种效率提升带来多重优势:推理速度显著加快,内存占用大幅降低,上下文容量成倍增长,训练成本有效控制。实验数据显示,处理同分辨率图像时,DeepSeek的token消耗量仅为Gemini的1/3,KV缓存条目数仅为其1/10。

这种极致效率并非以牺牲性能为代价。DeepSeek认为,对于空间推理任务,关键不在于保留所有原始像素信息,而在于提取对推理至关重要的结构化表征。视觉基元机制本身即是一种高效压缩——一个边界框用4个数字即可精确定位物体,信息密度远高于原始像素。实验结果表明,这种压缩方式在计数、路径追踪等任务中甚至带来了性能提升。

尽管取得突破,报告也坦诚指出当前方法的局限性。首先是触发词依赖问题:模型需要显式指令才能激活视觉基元模式,尚未具备自主判断何时需要空间标记的能力。其次是分辨率限制:为控制token数量,模型对输入图像进行了缩放处理,在医疗影像分析等需要细粒度识别的场景中表现不足。最后是跨场景泛化挑战:虽然通过大规模合成数据训练提升了迷宫导航等任务的准确率,但在真实世界拓扑推理任务中的表现仍有待验证。

针对这些挑战,研究团队提出了潜在解决方案。对于触发词依赖问题,可通过构建元认知层使模型自主评估任务复杂度;对于分辨率限制,可开发混合架构,在常规任务中使用压缩表征,在局部区域动态调用高分辨率处理;对于泛化能力,需进一步扩大数据多样性并探索视觉基元与传统多模态生态的兼容路径。这些思考展现了团队对技术边界的清醒认知,也为后续研究指明了方向。

更多热门内容
齐心集团深圳文博会大放异彩:AI科技与文创融合引领文化产业新趋势
本届文博会恰逢“十五五”规划开局与APEC会议在深举办之年,深圳作为主办城市,以国际化、市场化、专业化、数智化为办展方针,推动文化创意、数字科技、文创消费深度融合。齐心文创小花车满载创意好物,集中展示了覆盖学…

2026-05-23

Mac版Codex焕新升级:Appshots助力高效交互,/goal功能正式转正
传送给 Codex 的数据不只是截图,它还能读取窗口里的文字内容,包括屏幕上没显示出来的部分。 在实际应用场景中,OpenAI表示该功能主要解决以下痛点,例如用户在调试网页,在浏览器中发现 Bug,在设计…

2026-05-23

OpenAI Codex六项更新来袭!手机远程操控锁屏Mac,开发效率再升级
Appshots功能支持用户将前台最上方的应用程序窗口发送到Codex中,当用户正在使用另一个应用程序时,可以同时按左右Command键,Codex会自动截取当前窗口上的可见图像、提取可见文本以及可见区域之…

2026-05-23

性能新巅峰!iQOO 16即将登场 首批搭载2nm骁龙8E6 Pro芯片
快科技5月22日消息,今年下半年,国内各大手机品牌都将扎堆推出年度迭代旗舰,其中主打性能赛道的iQOO下一代数字旗舰iQOO 16已经浮出水面。有开发者发现,iQOO 16已经正式现身GSM协会的IMEI数…

2026-05-23

英特尔Clearwater Forest“Xeon 6+”数据中心处理器投产,性能与能效双提升
IT之家援引博文介绍,英特尔 Clearwater Forest“Xeon 6+”数据中心处理器基于 Intel 18A 制程,面向 6G和边缘 AI 负载,整合 RbbonFET、PowerVia、Fo…

2026-05-23

宇树科技G1人形机器人:语音指令实时驱动,自主生成多样肢体动作
【太平洋科技】5月19日,宇树科技发布一镜到底演示视频,展示其G1人形机器人实现语音驱动、实时自主生成任意动作的能力。 宇树G1人形机器人于2024年正式发布,配备23–43个关节电机与力控灵巧手,整机重…

2026-05-23

用友YonClaw获权威认证:以安全为基,开启企业级超级智能体数智化新篇
随着大模型技术与自动化能力的快速发展,Claw类智能体在企业业务处理、流程推进及系统联动等场景中应用日益广泛并发挥重要作用,但随之而来的潜在安全风险也开始显现。 中国信通院“企业级类Claw智能体安全能力评…

2026-05-23

HMD于印度发布Vibe 2 5G新机,预装支持多印度语言AI助手Indus
IT之家 5 月 22 日消息,据外媒 TechCrunch 今日报道,HMD 正式发布首款智能手机 Vibe 2 5G,并首次预装印度 AI企业 Sarvam 开发的聊天机器人 Indus,希望借低价硬件…

2026-05-23

安克新品发布:静音舱耳机AI算力飙升,eufyMake E1打印机赋能个人创作
写在最后在小雷看来,安克这场发布会其实很有意思,因为安克带来了两条非常清晰却不同的产品路线:一条是以 Thus A1 和 Liberty 5Pro 系列为代表,把 AI 算力塞进更小的终端;另一条则是以 …

2026-05-23