ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

谷歌Gemini 3 Flash上线“智能体视觉”:AI像人一样主动“观察思考”解图像难题

时间:2026-01-28 16:44:03来源:快讯编辑:快讯

谷歌DeepMind团队近日宣布,在Gemini 3 Flash模型中引入了一项突破性的“智能体视觉”功能。这一创新旨在解决传统AI模型在图像处理中的固有局限,通过主动调查的方式提升视觉理解的准确性。

传统AI模型在处理图像时,往往仅进行一次静态扫描。这种方式容易遗漏关键细节,例如芯片序列号或远处路牌上的信息,导致模型只能依赖猜测生成答案。Gemini 3 Flash的新功能则通过模拟人类的“思考、行动、观察”循环,将视觉理解转化为一个动态过程。模型不再被动接收信息,而是主动制定计划、操作图像并验证结果,从而确立答案的视觉证据。

“智能体视觉”的核心机制是一个闭环系统。在“思考”阶段,模型分析用户查询和初始图像,制定多步操作计划;随后进入“行动”阶段,模型生成并执行Python代码,对图像进行裁剪、旋转或标注等操作,或进行边界框计算等分析;最后在“观察”阶段,变换后的图像被追加到模型的上下文窗口中,供进一步验证。这一过程使模型能够利用更新后的数据和更佳的语境进行二次检查,最终生成基于事实的回复。

引入代码执行能力后,Gemini 3 Flash在多项视觉基准测试中的表现显著提升,质量提高了5%至10%。例如,在建筑图纸验证平台PlanCheckSolver.com上,该功能通过代码裁剪并分析屋顶边缘等高分辨率细节,使准确率提升了5%。在处理视觉数学问题时,模型不再依赖概率猜测,而是通过编写代码识别原始数据并调用Matplotlib库绘制精确图表,有效解决了多步视觉算术中常见的“幻觉”问题。

目前,Gemini 3 Flash已能够隐式决定何时放大细节以获取更准确的信息。谷歌DeepMind团队表示,未来版本将进一步优化,无需用户显式提示即可自动执行旋转图像或视觉运算等操作,从而提供更智能、更高效的视觉理解服务。

更多热门内容
神舟二十一号乘组归途在即 揭秘东风着陆场背后的航天智慧与保障实力
飞船返回的时候再入会产生剧烈的摩擦高温,不过飞船做了很多的防护,乘组是没问题的。最后离地1米,反推发动机点火,会听到“砰”的一声,伴随一下轻微的撞击——这也就意味着,返回舱稳稳地站在了地球的土地上。 返回…

2026-05-31

北京太空智算研究院落地亦庄 聚焦太空算力2028年前将发射首发试验星
研究院将围绕星载算力芯片、星间激光通信、太空能源与散热、天地一体化网络及空间安全标准等方向开展关键共性技术攻关,搭建覆盖技术研发、中试验证、在轨测试到成果转化的全链条服务体系,并计划于2028年前完成首发试验…

2026-05-31

北京太空智算研究院落地亦庄 攻关关键技术 构建太空算力产业生态
IT之家 5 月 30 日消息,据“北京亦庄”官方公众号,近日,北京太空智算研究院在北京经济技术开发区(简称北京经开区,又称北京亦庄)注册成立。 据介绍,研究院将围绕星载算力芯片、星间激光通信、太空能源与散热…

2026-05-31

百度Apollo捐赠自动驾驶车进高校,搭建平台共育未来科技新力量
百度Apollo向北京建筑大学捐赠了自动驾驶车辆,这不仅是技术的传递,更是对未来人才的培养。此次捐赠为教学科研搭建了全新平台,期待以此为契机深化产学研融合,碰撞创新火花,共同推动自动驾驶技术发展与复合型人才培…

2026-05-31

小红书亮相上海网络视听创作者大会:AI赋能创作,共筑真实互动新生态
在《AIGC重塑创作:开启人机共创新生态》主题圆桌中,小红书社区科技人文内容负责人散兵表示,AI正在降低内容创作门槛,也让越来越多普通人拥有表达和创造的能力。多位创作者也在现场分享了他们借助AI进行创作与表…

2026-05-31