全球权威评测机构Artificial Analysis今日发布全新Coding Agent基准Artificial Analysis Coding Agent Index,用于衡量Agent harnesses与模型的组合在SWE-Bench-Pro-Hard-AA、Terminal-Bench v2和SWE-Atlas-QnA主流基准上的表现。其中,智谱GLM-5.1(在Claude Code中运行)取得开源第一。
Artificial Analysis在官方推文中点明了这一新榜单的“含金量”:“当开发者使用AI编程时,他们不仅在选择模型,也在将其与特定的Agent harness搭配使用。只有对这一组合进行基准测试,才能真正理解并比较不同模型的真实性能。”
从评测结果上来看,GLM-5.1代表了国产大模型在实际编程Agent场景下的SOTA级别能力。
台积电先进封装产能告急,日月光力成等厂商加速布局抢抓AI新机遇
2026-06-15
赵建:投资修心为要,专注谦虚利他方能穿越牛熊获财富馈赠
2026-06-15
AI造富浪潮下的硅谷:代码筑梦昼,人性慰藉夜
2026-06-15
安联或成汇丰新加坡保险业务新东家 交易细节待最后敲定
2026-06-15
菲律宾股指升创3月6日以来新高
2026-06-15
印尼盾兑美元升创5月25日以来新高
2026-06-15
木林森子公司对全线PCB产品价格上调20%
2026-06-15
创业板指涨超3% 近3900股上涨
2026-06-15
港股有色金属股集体走强,五矿资源、招金矿业、江西铜业股份涨超7%
2026-06-15
A股有色金属股集体走强,洛阳钼业、锡业股份涨超6%
2026-06-15