ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

斯坦福评测:DeepSeek R1医疗AI大放异彩,成临床场景新冠军

时间:2025-06-04 11:17:34来源:ITBEAR编辑:快讯团队

斯坦福大学近期公布了一项关于临床医疗人工智能模型的深度评估结果,DeepSeek R1凭借其卓越的表现,在这场九强争霸中脱颖而出,以66%的胜率及0.75的宏观平均分荣膺桂冠。此次评估不仅涵盖了传统医疗执照考试的内容,更深入模拟了临床医生的日常工作环境,为评估增添了实战色彩。

为了全面而准确地评估各模型的性能,斯坦福大学的评测团队精心打造了一个名为MedHELM的综合评估体系,该体系包含35项基准测试,广泛覆盖了22个医疗任务子领域。这一体系的科学性和实用性得到了29名来自14个不同医学专科的执业医生的验证与认可。评估结果显示,DeepSeek R1在各项测试中均表现出色,稳定性极高,胜率标准差仅为0.10。紧随其后的是o3-mini和Claude3.7Sonnet,它们分别以64%的胜率和0.77的最高宏观平均分,以及64%的胜率获得了第二和第三名的佳绩。

值得注意的是,o3-mini在临床决策支持方面的表现尤为抢眼,展现了其在特定医疗场景下的强大实力。而Claude系列模型,如Claude3.5和3.7Sonnet,虽然未能夺冠,但也以不俗的胜率紧随DeepSeek R1和o3-mini之后,显示出其在医疗AI领域的竞争力。

此次评估还采用了创新的大语言模型评审团(LLM-jury)方法,该方法的结果与临床医生的评分高度吻合,进一步验证了其评估的有效性和准确性。同时,研究团队还进行了成本效益分析,发现推理模型的使用成本相对较高,更适合对精度和性能有较高要求的用户;而非推理模型则成本较低,更易于普及和应用。

斯坦福大学的这项评估不仅为医疗AI的发展提供了重要的数据参考,也为未来的临床实践提供了更多的选择和可能性,推动了医疗AI技术的不断前进。

更多热门内容
快手可灵AI:能否挑起“养家”大梁,成第二增长曲线?
即,“可灵AI已经广泛应用于广告营销、短剧和智能终端等多个行业,这也使得我们对于可灵AI成为新AI时代视频创作的基础设施的愿景更有信心。”快手CFO金秉在财报电话会议中表示,可灵AI已经在推理层面实现了边际…

2025-06-05

游戏大厂AI角逐:腾讯、米哈游、网易如何重塑游戏产业?
这款游戏以AI多模态交互为核心亮点,玩家能与被困外星星球的女生Stella进行文字、语音甚至视频实时对话;网易伏羲实验室则陆续推出虚拟人、智能捏脸、智能创作等一系列技术,并将其植入网易旗下的《倩女幽魂》《永劫…

2025-06-05

淘宝Vision进军线下,未来旗舰店首店已在阿里总部试运行
新榜讯财联社6月5日消息,淘宝旗下空间购物应用“淘宝Vision”计划于今年进军线下领域,目前正筹备一个未来旗舰店项目,旨在进一步融合线上沉浸式购物体验与线下商业模式。 据接近淘宝的业内人士透露,“淘宝Vi…

2025-06-05

淘宝Vision线下布局新动作:未来旗舰店试运行,3D数字人导购亮相
据新浪科技,淘宝空间购物应用“淘宝Vision”今年将进军线下,正在酝酿一个未来旗舰店项目,把线上沉浸式购物体验和线下商业模式做进一步融合。 接近淘宝的业内人士向新浪科技独家透露,“淘宝Vision未来旗舰店…

2025-06-05