阿里巴巴近日宣布,正式开源其首个深度研究智能体模型——通义DeepResearch,为全球开发者攻克复杂研究任务提供了全新工具。该模型在多个权威评测基准中表现亮眼,以30亿激活参数的轻量化设计,超越了基于OpenAI o3、DeepSeek V3.1及Claude-4-Sonnet等旗舰模型构建的ReAct智能体。
在Humanity’s Last Exam(HLE)、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA及frames等评测集中,通义DeepResearch通过创新的训练框架与推理策略,实现了性能突破。其核心优势在于解决了传统“单窗口、线性累加”模式在长周期任务中面临的“认知空间窒息”与“不可逆噪声污染”问题,确保复杂推理任务的高质量完成。
研发团队构建了以Qwen3-30B-A3B模型为基础的合成数据驱动训练链路,覆盖预训练与后训练全流程。该链路通过异步强化学习算法与自动化数据策展流程,结合真实与虚拟环境训练模块,显著提升了模型迭代效率与泛化能力。例如,在处理需要多步骤验证的研究任务时,模型可动态调整信息处理优先级,避免传统方法中因信息过载导致的性能衰减。
推理阶段,团队设计了双模式架构:ReAct模式用于精准评估模型基础能力,适用于快速验证场景;Heavy模式则通过test-time scaling策略,充分释放模型性能潜力,确保在跨领域、长周期任务中维持高水准推理。这种设计使模型既能高效处理简单查询,也可应对需要深度分析的复杂问题。
目前,通义DeepResearch的模型代码、训练框架及部署方案已通过GitHub、Hugging Face及魔搭社区全面开源。开发者可自由下载30亿参数版本(A3B)的模型权重与训练工具,快速构建定制化研究智能体。此举延续了阿里巴巴今年以来在AI智能体领域的开源策略,此前发布的WebWalker、WebDancer等检索推理模型均已成为开源社区标杆工具。
行业分析指出,通义DeepResearch的开源为深度研究赛道提供了“轻量化+高性能”的全新范式。其通过合成数据训练与异步强化学习的结合,降低了对大规模真实数据的依赖,同时保持了模型在复杂场景下的推理鲁棒性。这一特性对医疗、金融、科研等需要处理海量结构化与非结构化数据的领域具有重要价值。