6月23日消息,在今日开幕的2026火山引擎FORCE原动力大会上,字节跳动正式发布豆包大模型2.1 Pro(Doubao-Seed-2.1 Pro),并在现场公布了与GPT-5.5、Claude-Opus-4.7、Gemini-3.1-Pro等主流模型的基准测试对比数据。
豆包大模型2.1 Pro在多项编程相关基准测试中表现亮眼。
在Terminal Bench 2.1测试中,豆包2.1 Pro得分71.0,接近GPT-5.5的73.8,优于Claude-Opus-4.7的71.7和Gemini-3.1-Pro的70.7。在SciCode科学代码测试中,豆包2.1 Pro以59.8的得分领先GPT-5.5的58.4、Claude-Opus-4.7的56.4和Gemini-3.1-Pro的62.3(注:此处Gemini得分更高)。在NL2Repo-Bench测试中,豆包2.1 Pro得分47.0,超过GPT-5.5的45.1和Gemini-3.1-Pro的33.4。
不过在SWE-Pro(软件工程)测试中,豆包2.1 Pro得分57.5,落后于GPT-5.5的58.6和Claude-Opus-4.7的64.3,但优于Gemini-3.1-Pro的54.2。Program Bench测试数据显示,豆包2.1 Pro为0/1/50.25,GPT-5.5为0.5/5.5/65.90,Claude-Opus-4.7为0/2.5/52.05。
编程能力是此次2.1 Pro版本的重点升级方向。(AI普瑞斯)