ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

中文大模型新巅峰!豆包1.5与商汤日日新V6并驾齐驱领跑榜单

时间:2025-05-30 17:55:52来源:ITBEAR编辑:快讯团队

近日,备受瞩目的SuperCLUE发布了其最新的《中文大模型基准测评报告》,该报告针对2025年5月的中文大模型能力进行了全面评估。

在本次测评中,有两款模型尤为突出,它们分别是豆包1.5深度思考模型(Doubao-1.5-thinking-pro)和商汤科技的日日新V6多模态模型(SenseNova-V6 Reasoner)。这两款模型凭借其卓越的表现,成功超越了之前的领先者Gemini 2.5 Flash Preview,成为当前中文大模型领域的佼佼者。

紧随其后的第二梯队模型同样不容小觑,包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1和DeepSeek-V3。这些模型在各自的领域内均有着出色的表现,并在本次测评中展现出了强大的竞争力。

据SuperCLUE报告指出,当前国内外中文大模型在通用能力方面的差距正在逐渐缩小。在国内市场中,Doubao-1.5-thinking-pro-205415和SenseNova V6 Reasoner凭借其出色的表现,成功吸引了业界的广泛关注。这两款模型的出色表现,也预示着国内推理模型市场的竞争格局正在逐步形成。

SuperCLUE作为行业权威的通用大模型综合性测评基准,其本次测评覆盖了数学推理、科学推理、代码生成、智能体Agent、精确指令遵循以及文本理解与创作六大任务。测评题目总量达到了1579道多轮简答题,旨在全面评估大模型在中文环境下的通用能力。

通过本次测评,我们可以清晰地看到当前中文大模型领域的竞争格局以及各模型的优劣所在。这不仅为行业内的研发者提供了宝贵的参考信息,也为广大用户提供了更加准确的选择依据。

更多热门内容
AI内容时代:视频大模型引领商业化新浪潮?
搞内容创作十多年,一路蹉跎苟延残喘到现在,我也尝试过做短视频内容,各种风格都试了,出镜的不出镜的,商业的八卦的,踩的坑也不少。视频内容繁荣的另一面,其实也是创作成本的降低。 也因此,内容制作成本越低,边际效…

2025-05-31

AI职场幻觉频发,你中招了吗?
赶在交稿日期截止的编辑周子衡看来,那段话“逻辑通顺、语气专业、甚至连百分比都标得刚刚好”,结果却是凭空捏造;电商客服王萌的团队,因为AI生成了一段“模板式话术”,误发了不适用的退货规则,客户拿着截图投诉,平…

2025-05-31