ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

香港中文大学等联合研究:让AI视觉系统学会“查资料再看图”新路径

时间:2026-05-19 00:05:23来源:互联网编辑:快讯

当朋友发来一张聚会照片,让你找出“今年奥斯卡最佳女配角得主”时,若你并不知晓获奖者姓名,只能先通过搜索引擎确认身份,再返回照片中寻找目标。这一对人类而言再自然不过的跨模态推理过程,却长期困扰着人工智能视觉系统——现有模型往往只能“看图识物”,缺乏主动检索背景知识辅助识别的能力。深圳循环区研究院联合武汉大学与香港中文大学多媒体实验室,通过构建全新数据集与算法框架,首次将“先查资料再看图”的认知模式引入计算机视觉领域。

研究团队将这种需要结合外部知识库与视觉感知的任务定义为“感知深度研究”。传统视觉模型分为两类:一类通过视觉特征直接定位目标,另一类依赖训练数据中的常识进行推理,但两者均假设目标身份可通过图像本身或既有知识推导。当问题涉及最新新闻事件、冷门实体关系等动态知识时,现有模型便会集体失效。例如面对“找出发布时附赠赛车游戏捆绑套装,且该游戏主角曾用名Jumpman的设备”这类问题时,模型需通过1981年游戏《大金刚》主角马里奥的改名史,逐步推导出目标为任天堂Switch 2,这显然超出单纯视觉分析的范畴。

为量化评估这种跨模态推理能力,研究团队开发了WebEyes数据集。该数据集包含120张复杂场景图片,标注了473个目标物体实例,生成645组问答对,最终形成1927道测试题。题目覆盖知名人物、标志性IP、流行文化、动漫角色、商品及车辆六大类别,其中动漫角色与IP形象占比超40%,这类目标往往需要特定背景知识才能区分。测试题型分为三类:目标定位要求输出精确矩形框坐标;目标分割需生成像素级轮廓蒙版;视觉问答则需从选项中选出包含正确知识描述的答案。所有题目均通过三轮链式搜索生成间接线索,刻意隐藏目标名称与视觉特征,并设置三重过滤机制剔除可通过常识或单纯视觉解答的题目,最终保留的样本均具备完整证据链追溯。

针对该任务,研究团队提出Pixel-Searcher两阶段解决方案。第一阶段模拟人类推理过程,将复杂问题拆解为具有逻辑依赖关系的子问题,通过多轮搜索-推理循环构建目标假设。该假设包含目标名称、视觉类别及可验证线索三要素,例如将“奥斯卡最佳女配角”问题转化为“查找2026年奥斯卡获奖名单→确认女配角得主→匹配照片中人物特征”。系统会主动验证假设合理性,排除中间推理步骤或与视觉场景矛盾的结论。第二阶段利用目标假设指导视觉定位,通过生成候选区域并依据关键线索打分筛选,最终输出精确坐标或分割蒙版。对于视觉问答任务,则反向验证选项知识描述与标注区域的匹配度。

实验数据显示,在目标定位任务中,Pixel-Searcher将基础模型Qwen3-VL-8B的IoU指标从26.81提升至34.17,Recall@0.5从32.61提升至41.30,动漫角色与IP形象类别的提升尤为显著。目标分割任务中,gIoU与cIoU指标分别提升3.39与6.47个百分点,车辆类别的分割精度进步明显。视觉问答准确率提高6.1个百分点,商品类题目改善突出。尽管如此,开源方案与闭源商业模型仍存在差距,Doubao-Seed-2.0-Pro在目标分割任务中达到61.22 gIoU,显示该领域仍有较大提升空间。

失败案例分析揭示,78%的错误源于搜索过程或实体解析失误,如获取错误证据或混淆中间推理步骤;19%的错误发生在视觉定位阶段,即便正确解析目标身份仍可能选错区域;仅3%的错误与像素蒙版生成相关。这表明当前模型的核心瓶颈在于跨模态信息整合能力,而非单纯的视觉处理精度。研究团队通过消融实验证实,候选区域生成与多重验证机制是提升性能的关键,单独移除任一环节均会导致指标大幅下降。

该研究通过定义新任务、构建专用数据集及提出解决方案,为计算机视觉领域开辟了跨模态推理的新方向。传统视觉模型如同“只读图不查字典的学生”,而WebEyes与Pixel-Searcher的探索表明,当视觉感知与主动信息检索相结合时,人工智能方能应对真实世界中需要动态知识辅助的复杂场景。完整技术细节可查阅arXiv平台论文编号2605.12497。

更多热门内容
AI智能体落地:75%企业试水仅15%成功,关键分水岭与破局之道何在
长期(1-3 年)AI智能体将从"效率工具"升级为"组织核心"。战神数科服务推荐方案:企业数字化转型全案(含场景诊断 →流程拆解 → 智能体搭建 → 效果闭环四步法)预期效果:获客成本降低 40%,内容…

2026-05-29

68亿电网大单启幕:电力机器人千亿市场,哪些企业将领跑?
三类机器人的配置绝非随机,背后是一条清晰的技术难度递进链:四足机器狗解决的是“看得见”的问题——高频巡检、红外测温、隐患预警;双臂巡检机器人在此基础上增加了“动得起来”的能力——完成变电站设备分合闸、小车摇…

2026-05-29

2027北京国际人工智能与机器人展会扩容升级 助力京津冀智能产业腾飞
本届展会在往届成熟办展基础上全面扩容升级,展览面积、参展企业、产业链覆盖度、专业观众规模实现全方位提升,持续依托京津冀“北京研发、天津制造、河北场景”的独特产业协同格局,打造北方地区规模最大、专业性最强、产业…

2026-05-29

Anthropic推Claude Opus 4.8:性能跃升融资创新高,但“诚实”引争议
Bun创始人JarredSumner用该功能将75万行代码从Zig移植到Rust,11天完成,99.8%测试通过。Mollick还展示了一个更夸张的案例:Opus 4.8从零构建了一款完整的角色扮演游戏,生…

2026-05-29

COMPUTEX 2026前瞻:高通安蒙将演讲,智能体AI引领全域智能新未来
第五代骁龙 8 至尊版移动平台作为旗舰手机的核心算力底座,目前已搭载于三星 Galaxy S26系列、荣耀 Magic V6以及首款机器人手机Robot Phone 等多款产品,能够在本地运行复杂的跨应用任…

2026-05-29

科技助力“夕阳红”:陶然亭街道外骨骼机器人让老人行走更稳健
近日,西城区陶然亭街道养老服务中心引进了4台外骨骼机器人,涵盖医用级与便携式两大类型,为半失能和行动不便的老人带来了行走的新可能,也让老人“稳稳走路、轻松上下楼”的愿望不再遥远。陈琪说,设备可根据老人身体状况…

2026-05-29