ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

通义DeepResearch重磅登场:性能比肩海外旗舰,模型框架方案全面开源共享

时间:2025-09-18 19:40:25来源:机器之心Pro编辑:快讯团队

人工智能领域迎来重要突破,通义DeepResearch正式开源发布,标志着AI研究能力从“对话交互”向“深度探索”的跨越式发展。该模型在Humanity's Last Exam、BrowseComp、GAIA等国际权威深度研究基准测试中均取得最优成绩,综合性能与海外旗舰模型持平甚至超越,同时以完全开源的方式提供模型、框架及解决方案。

针对海外闭源模型使用成本高、调用受限等问题,研发团队通过创新技术路径实现突破。30B参数规模的tongyi DeepResearch在保持轻量化的同时,通过多阶段数据策略和强化学习优化,在复杂推理任务中展现出显著优势。其核心技术覆盖数据合成、增量预训练、有监督微调及强化学习全流程,形成端到端的智能体训练范式。

数据构建方面,团队开发出全自动化合成方案。通过知识图谱随机游走、表格数据融合等技术,从真实网站提取结构化信息,并设计“原子操作”系统提升问题复杂度。特别在决策动作合成中,将多步骤轨迹重构为决策过程,有效增强模型规划能力。该方案生成的“博士级”研究问题,可模拟多学科交叉推理场景,推动模型能力逼近人类专家水平。

模型架构创新包含双重推理模式:标准ReAct模式支持128K长上下文交互,通过“思考-行动-观察”循环处理常规任务;深度模式(Heavy Mode)则采用IterResearch范式,将复杂任务分解为多个研究轮次。每轮仅保留关键信息构建精简工作空间,通过“综合与重构”迭代保持认知焦点,避免传统方法中的信息过载问题。团队还提出Research-Synthesis框架,允许多智能体并行探索后整合结论,显著提升答案准确性。

训练体系实现全链路革新,从Agentic持续预训练(CPT)到拒绝微调(RFT)再到强化学习(RL),形成闭环优化系统。在RL阶段,团队基于GRPO算法进行定制优化,采用on-policy训练范式确保学习信号与模型能力精准匹配。通过token级策略梯度损失、留一法优势估计等技术,有效降低训练方差。针对负样本干扰问题,开发选择性过滤机制,结合大批量训练维持监督信号稳定性。

基础设施层面构建三大支撑系统:仿真训练环境利用离线维基百科和自定义工具套件,降低对实时Web API的依赖;稳定工具沙盒通过缓存、重试和饱和响应机制,确保工具调用的可靠性;自动数据管理系统实现训练动态指导下的实时优化,形成数据生成与模型训练的正向循环。异步强化学习框架支持多智能体并行交互,显著提升训练效率。

技术落地已产生实际价值。与高德合作的出行智能体“高德小德”,在地图导航和本地生活场景中实现复杂查询的垂类应用,成为高德V16版本的核心功能。法律领域推出的“通义法睿”智能体,集成案例检索、合同审查、文书起草等功能,通过迭代规划技术实现多步推理,在答案质量、案例引用、法条匹配等维度达到行业领先水平。

研发团队同步发布六篇技术报告,详细阐述数据合成策略、强化学习优化、多智能体协作等关键技术。开源社区已上线30B参数规模的tongyi DeepResearch模型,配套提供框架代码和训练方案。此前半年间,团队保持每月发布技术报告的节奏,持续推动深度研究智能体领域的技术演进。

更多热门内容