ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

全球顶尖团队揭秘:打造高效AI智能体,数据“喂养”策略全解析

时间:2026-06-27 21:37:15来源:互联网编辑:快讯

由斯坦福大学、加州大学伯克利分校等数十所顶尖机构联合开展的OpenThoughts-Agent项目,近日在人工智能领域引发广泛关注。该项目通过系统性实验,首次全面解构了智能体模型训练数据的关键要素,并开源了包含数据集、处理流程和训练方法的全套技术方案。研究团队在arXiv平台发布的预印本论文显示,其开发的OpenThinkerAgent-32B模型在七个基准测试中平均得分44.8%,较此前最优开源模型提升3.9个百分点。

教师模型的选择同样呈现反直觉结果。尽管GPT-5.3-Codex在基准测试中表现最优,但其生成的示范轨迹因过于简练反而效果不佳。相反,性能稍弱的GLM-4.7-AWQ因提供更详细的探索步骤,使模型学习效率提升5个百分点。研究团队指出,学生模型更需要包含纠错过程的完整解题轨迹,而非直接给出最优解。这一发现促使他们建立轨迹过滤标准,剔除步骤少于5条的简短记录,使模型在三个测试集上的表现均有显著提升。

在数据规模扩展实验中,团队采用"题目改写+难度分层"策略突破多样性瓶颈。针对题目数量最少的Tezos数据集,通过保留语义的文本改写将其扩展20倍,并按GPT-5-nano评估的难度分配训练权重。这种方案使10万条数据训练的模型在SWE-Bench测试中提升7.7个百分点,终端操作测试提升5个百分点。强化学习阶段则采用Codeforces等竞赛题目改造的pymethods2test数据集,其适中的难度使模型在尝试中积累有效经验,思考文字量增加一倍的同时,工具调用和纠错频率显著提升。

研究还验证了监督微调与强化学习的协同策略。先进行轻量级监督微调建立基础能力,再通过强化学习持续优化的方案,在80亿参数模型上取得27.9%的得分,超越单纯监督微调的27.4%。这种"渐进式"训练策略避免了模型过早收敛导致的改进瓶颈。在最终评估中,OpenThinkerAgent-32B在代码修复、终端操作、多语言编辑等七个任务中均表现优异,尤其在未参与训练的医疗AI测试中仍保持47.8%的得分,显示其良好的泛化能力。

该研究不仅开源了全套技术方案,更建立了可复现的数据构建方法论。论文详细披露了各环节的最优参数配置,包括题目混合比例、轨迹过滤阈值和强化学习奖励函数等关键细节。这种透明化研究模式为开源社区提供了重要参考,使得中小机构也能基于公开数据训练高性能智能体模型。目前所有训练数据和模型权重已通过openthoughts.ai平台开放下载,arXiv编号2606.24855的完整论文亦可供学术界深入研讨。

更多热门内容