ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

2025年5月大模型测评报告:豆包1.5与商汤日日新V6并驾齐驱领跑国内

时间:2025-05-30 18:37:18来源:ITBEAR编辑:快讯团队

近日,备受瞩目的SuperCLUE发布了其最新的《中文大模型基准测评报告》,该报告详细阐述了2025年5月份中文大模型的最新表现。

在此次测评中,豆包1.5·深度思考模型(Doubao-1.5-thinking-pro)与商汤日日新V6多模态模型(SenseNova-V6 Reasoner)脱颖而出,成功夺得金牌,将Gemini 2.5 Flash Preview甩在身后,领跑国内大模型的第一梯队。

紧随其后的是第二梯队的大模型们,包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1和DeepSeek-V3,它们虽然在本次测评中未能摘得金牌,但同样展现出了不俗的实力。

据报告分析,国内外第一梯队大模型在中文领域的通用能力差距正在逐渐缩小,这对于国产大模型来说无疑是一个好消息。其中,Doubao-1.5-thinking-pro-205415和SenseNova V6 Reasoner的表现尤为抢眼,它们在多个测评任务中都展现出了卓越的能力。

本次SuperCLUE的测评报告聚焦大模型的通用能力,涵盖了数学推理、科学推理、代码生成、智能体Agent、精确指令遵循以及文本理解与创作六大任务,总计1579道多轮简答题。这些任务全面考察了大模型在不同场景下的应用能力和表现。

SuperCLUE作为行业权威的通用大模型综合性测评基准,其发布的报告一直备受关注。此次报告的发布,不仅揭示了当前中文大模型的最新发展态势,也为未来大模型的研究和应用提供了重要的参考依据。

更多热门内容
AI内容时代:视频大模型引领商业化新浪潮?
搞内容创作十多年,一路蹉跎苟延残喘到现在,我也尝试过做短视频内容,各种风格都试了,出镜的不出镜的,商业的八卦的,踩的坑也不少。视频内容繁荣的另一面,其实也是创作成本的降低。 也因此,内容制作成本越低,边际效…

2025-05-31