ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

上海AI实验室350亿参数模型:另辟蹊径,挑战万亿参数大模型霸主地位

时间:2026-07-04 05:51:01来源:互联网编辑:快讯

上海人工智能实验室近期公布一项突破性成果:其研发的350亿参数智能体模型Agents-A1在多项复杂任务中展现出与万亿参数商业大模型抗衡的实力。这项以"扩展智能体视野"为核心思路的研究,通过重构AI训练范式,为资源有限的研究团队开辟了新的技术路径。实验数据显示,该模型在长程搜索、科学推理等六个专项领域中,有12项基准测试成绩超越或持平GPT-5.5等顶级模型。

传统AI开发遵循"大力出奇迹"的路径,参数规模与性能呈现强关联。Agents-A1团队另辟蹊径,将研究重点转向任务处理流程的优化。其核心创新在于构建"知识行动图"(KAG),该系统将任务拆解为素材库、操作集、观察结果和验证器四个维度,完整记录模型从状态判断到行动执行的全过程。这种设计使模型不仅能存储正确路径,更保留了错误尝试与修正过程,形成包含10万条长程轨迹的动态训练库,平均每条数据长度达4.5万词语。

研究团队针对不同任务类型建立六条专项数据流水线。在长程搜索领域,通过维基百科超链接构建有向图,生成需要多级跳转的推理任务;科学推理模块则对基础题目进行双重增强,既增加知识深度又强化工具交互需求;工具调用专项创新性地建立"工具依赖图",确保任务生成符合真实场景的约束关系。这些精心设计的训练数据,使模型在处理复杂任务时展现出类似人类厨师的流程管理能力。

训练体系采用三段式渐进策略:首先进行全领域监督微调,使用10万条跨领域数据建立基础能力;随后针对搜索、科学等四个核心领域分别训练教师模型,通过强化学习实现专项突破;最终通过多教师在线蒸馏技术,将六个领域的能力整合到统一模型。这种分阶段训练方式有效解决了不同任务思考模式冲突的问题,特别是在指令遵循领域,通过动态采样策略将训练效率提升40%。

在具体性能对比中,Agents-A1在HiPhO物理奥林匹克基准取得46.4分,超越GPT-5.5的43.3分;FrontierScience-Research研究级科学推理基准上,该模型以40.0分大幅领先第二名GPT-5.5的26.7分。在分子科学智能体任务中,其56.8分的成绩较Kimi-K2.6提升165%。不过,研究团队也指出模型在机器学习工程领域的局限性,在需要持续决策的MLE-Bench-Lite测试中,其奖牌率较顶级商业模型存在20-30个百分点的差距。

两个实战案例充分展示模型潜力。在12小时机器学习竞赛优化任务中,Agents-A1从基础CNN网络起步,通过时序分析、数据增强等七次迭代,将鲸鱼叫声检测准确率从0.58提升至0.9935。地球科学分析任务中,模型自主完成热带风暴数据提取、清洗、可视化及报告撰写全流程,生成的五组专业图表准确标注了关键演变阶段。这些案例验证了模型在真实场景中的闭环执行能力。

这项研究的技术细节已通过arXiv平台公开(编号2606.30616),其核心价值在于证明AI性能提升存在替代路径。通过优化任务处理流程而非单纯扩大参数规模,中小研究团队也能开发出具有竞争力的智能体系统。研究团队特别强调,模型在元认知能力方面仍有提升空间,未来将重点强化规划前置、长上下文关键信息提炼等高级功能。

更多热门内容
紫光同创首发国产自主产权亿门级FPGA及加速卡 填补国内高端芯片空白
IT之家 7 月 3 日消息,新紫光集团旗下紫光同创在 2026 慕尼黑上海电子展上发布 Titan-3 系列亿门级高端FPGA,是国内第一款自主产权亿门级高端 FPGA 产品。 IT之家注:FPGA(现场…

2026-07-04

优必选U1系列机器人订单破万,外观引热议:高度仿生下的期待与争议
与通用人形机器人不同,这些公司更注重为机器人打造接近人类的面孔、皮肤、声音与体温,并训练其情绪交互能力,将其定义为“伙伴”甚至一种“新型关系”。 这恰恰揭示了仿生机器人的复杂性:人明知它是一台机器,但面对高度…

2026-07-04

桂海潮:从边陲学子到太空逐梦者,用科研与科普点亮航天新未来
回到地面后,他回到讲台和实验室,组建“太空智能操作技术创新中心”,带领50余名师生开展空间机器人和太空交通研究。他指导6名本科生提出多星协同清除“太空垃圾”方案,获得中国国际大学生创新大赛银奖——这6名学生…

2026-07-04