ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

商汤发布开源模型SenseNova-MARS,多模态推理与工具调用助力AI高效执行复杂任务

时间:2026-01-30 12:19:15来源:ITBEAR编辑:快讯

商汤科技近日宣布开源其最新研发的多模态自主推理模型——SenseNova-MARS,该模型同时推出8B和32B两个版本,为人工智能领域带来了新的突破。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM模型,SenseNova-MARS在多模态搜索与推理方面展现出卓越性能,在核心基准测试中以69.74分的成绩超越了Gemini-3-Pro和GPT-5.2等知名模型。

SenseNova-MARS的独特之处在于其自主规划与工具调用能力。面对复杂任务时,该模型能够自动规划解决步骤,调用图像裁剪、文本及图像搜索等工具,形成完整的解决方案闭环。例如,在识别赛车服上的微小logo、查询公司成立年份、匹配车手出生年月并计算差值的任务中,模型无需人工干预即可完成全流程操作。这种能力使AI系统首次具备了真正的"执行能力",能够处理需要多步骤推理和跨模态信息整合的复杂场景。

在性能验证方面,SenseNova-MARS在MMSearch、HR-MMSearch、FVQA等多个权威基准测试中均取得开源模型中的最佳成绩,甚至超越了Gemini-3.0-Pro等顶级闭源模型。该模型在细节识别、信息检索和逻辑推理三大核心能力上表现突出:其图像裁剪功能可精准定位占比不足5%的微小细节,如赛事照片中的观众标语或设备标识;图像搜索能实时匹配物体、人物或场景的相关信息;文本搜索则可秒级获取公司成立时间、行业数据等精准信息。

实际应用场景中,SenseNova-MARS已展现出强大潜力。在行业分析领域,该模型可从产品发布会照片中自动识别企业标志,快速搜集产品参数、时间节点等关键信息;在赛事报道方面,模型能通过照片识别运动员身份、追溯比赛背景,并补充观众反应等现场细节。更值得关注的是,该模型可处理超长步骤的多模态推理任务,自动调用多种工具验证假设并形成关键判断,为科研、金融等需要深度分析的领域提供了新的技术路径。

更多热门内容
BOSS直聘一季报:聚焦招聘效率,蓝领市场与AI成增长新引擎
在线招聘行业的竞争焦点,早已从流量争夺转向效率革命。当某头部平台公布最新财报时,其20.7亿元季度营收背后,折射出整个行业正在经历的深层变革。这家平台3月移动端月活跃用户突破7200万,相当于将英国全国人口聚集在同一个数字空间,但更值得关注的是,其中超过六成

2026-05-21