上海AI实验室350亿参数模型：另辟蹊径，挑战万亿参数大模型霸主地位-人工智能-ITBear科技资讯

上海人工智能实验室近期公布一项突破性成果：其研发的350亿参数智能体模型Agents-A1在多项复杂任务中展现出与万亿参数商业大模型抗衡的实力。这项以"扩展智能体视野"为核心思路的研究，通过重构AI训练范式，为资源有限的研究团队开辟了新的技术路径。实验数据显示，该模型在长程搜索、科学推理等六个专项领域中，有12项基准测试成绩超越或持平GPT-5.5等顶级模型。

传统AI开发遵循"大力出奇迹"的路径，参数规模与性能呈现强关联。Agents-A1团队另辟蹊径，将研究重点转向任务处理流程的优化。其核心创新在于构建"知识行动图"（KAG），该系统将任务拆解为素材库、操作集、观察结果和验证器四个维度，完整记录模型从状态判断到行动执行的全过程。这种设计使模型不仅能存储正确路径，更保留了错误尝试与修正过程，形成包含10万条长程轨迹的动态训练库，平均每条数据长度达4.5万词语。

研究团队针对不同任务类型建立六条专项数据流水线。在长程搜索领域，通过维基百科超链接构建有向图，生成需要多级跳转的推理任务；科学推理模块则对基础题目进行双重增强，既增加知识深度又强化工具交互需求；工具调用专项创新性地建立"工具依赖图"，确保任务生成符合真实场景的约束关系。这些精心设计的训练数据，使模型在处理复杂任务时展现出类似人类厨师的流程管理能力。

训练体系采用三段式渐进策略：首先进行全领域监督微调，使用10万条跨领域数据建立基础能力；随后针对搜索、科学等四个核心领域分别训练教师模型，通过强化学习实现专项突破；最终通过多教师在线蒸馏技术，将六个领域的能力整合到统一模型。这种分阶段训练方式有效解决了不同任务思考模式冲突的问题，特别是在指令遵循领域，通过动态采样策略将训练效率提升40%。

在具体性能对比中，Agents-A1在HiPhO物理奥林匹克基准取得46.4分，超越GPT-5.5的43.3分；FrontierScience-Research研究级科学推理基准上，该模型以40.0分大幅领先第二名GPT-5.5的26.7分。在分子科学智能体任务中，其56.8分的成绩较Kimi-K2.6提升165%。不过，研究团队也指出模型在机器学习工程领域的局限性，在需要持续决策的MLE-Bench-Lite测试中，其奖牌率较顶级商业模型存在20-30个百分点的差距。

两个实战案例充分展示模型潜力。在12小时机器学习竞赛优化任务中，Agents-A1从基础CNN网络起步，通过时序分析、数据增强等七次迭代，将鲸鱼叫声检测准确率从0.58提升至0.9935。地球科学分析任务中，模型自主完成热带风暴数据提取、清洗、可视化及报告撰写全流程，生成的五组专业图表准确标注了关键演变阶段。这些案例验证了模型在真实场景中的闭环执行能力。

这项研究的技术细节已通过arXiv平台公开（编号2606.30616），其核心价值在于证明AI性能提升存在替代路径。通过优化任务处理流程而非单纯扩大参数规模，中小研究团队也能开发出具有竞争力的智能体系统。研究团队特别强调，模型在元认知能力方面仍有提升空间，未来将重点强化规划前置、长上下文关键信息提炼等高级功能。

生数科技发布Vidu S1，实时交互视频生成模型开启数字人新篇章

2026-07-04

戛纳舞台上的中国力量：可灵AI助力两部作品，开启商业创意新篇章

2026-07-04

生数科技Vidu S1问世：以实时交互能力，开启视频生成全新篇章

2026-07-04

AniShort上线三月营收破300万，八点八数字耿广星：工作流赋能AI短剧工业化突围

2026-07-04

聚焦2026产融交流会：机器人商业化突破口在哪？产学研共探新路径

2026-07-04

从雨果预言到AI时代：技术变革下人文精神如何应对新挑战？

2026-07-04