全球顶尖团队揭秘：打造高效AI智能体，数据“喂养”策略全解析-人工智能-ITBear科技资讯

由斯坦福大学、加州大学伯克利分校等数十所顶尖机构联合开展的OpenThoughts-Agent项目，近日在人工智能领域引发广泛关注。该项目通过系统性实验，首次全面解构了智能体模型训练数据的关键要素，并开源了包含数据集、处理流程和训练方法的全套技术方案。研究团队在arXiv平台发布的预印本论文显示，其开发的OpenThinkerAgent-32B模型在七个基准测试中平均得分44.8%，较此前最优开源模型提升3.9个百分点。

教师模型的选择同样呈现反直觉结果。尽管GPT-5.3-Codex在基准测试中表现最优，但其生成的示范轨迹因过于简练反而效果不佳。相反，性能稍弱的GLM-4.7-AWQ因提供更详细的探索步骤，使模型学习效率提升5个百分点。研究团队指出，学生模型更需要包含纠错过程的完整解题轨迹，而非直接给出最优解。这一发现促使他们建立轨迹过滤标准，剔除步骤少于5条的简短记录，使模型在三个测试集上的表现均有显著提升。

在数据规模扩展实验中，团队采用"题目改写+难度分层"策略突破多样性瓶颈。针对题目数量最少的Tezos数据集，通过保留语义的文本改写将其扩展20倍，并按GPT-5-nano评估的难度分配训练权重。这种方案使10万条数据训练的模型在SWE-Bench测试中提升7.7个百分点，终端操作测试提升5个百分点。强化学习阶段则采用Codeforces等竞赛题目改造的pymethods2test数据集，其适中的难度使模型在尝试中积累有效经验，思考文字量增加一倍的同时，工具调用和纠错频率显著提升。

研究还验证了监督微调与强化学习的协同策略。先进行轻量级监督微调建立基础能力，再通过强化学习持续优化的方案，在80亿参数模型上取得27.9%的得分，超越单纯监督微调的27.4%。这种"渐进式"训练策略避免了模型过早收敛导致的改进瓶颈。在最终评估中，OpenThinkerAgent-32B在代码修复、终端操作、多语言编辑等七个任务中均表现优异，尤其在未参与训练的医疗AI测试中仍保持47.8%的得分，显示其良好的泛化能力。

该研究不仅开源了全套技术方案，更建立了可复现的数据构建方法论。论文详细披露了各环节的最优参数配置，包括题目混合比例、轨迹过滤阈值和强化学习奖励函数等关键细节。这种透明化研究模式为开源社区提供了重要参考，使得中小机构也能基于公开数据训练高性能智能体模型。目前所有训练数据和模型权重已通过openthoughts.ai平台开放下载，arXiv编号2606.24855的完整论文亦可供学术界深入研讨。