ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

OpenAI发布医疗大模型测试集HealthBench,性能提升显著

时间:2025-05-13 09:24:31来源:ITBEAR编辑:快讯团队

OpenAI近日在医疗健康领域迈出了重要一步,宣布推出并开源了专为医疗大模型设计的测试评估集——HealthBench。这一举措旨在更精确地评估AI系统在医疗健康领域的表现。

与以往的测试集相比,HealthBench在多个维度上实现了突破。其核心测试对话集由262名医生精心打造,他们来自60个国家和地区的26个专业,确保了测试内容的难度、真实性和丰富性。这些医生的专业背景使得HealthBench能够覆盖广泛的健康场景和行为维度。

具体而言,HealthBench包含了48562个独特的医生评分标准,这些标准不仅涵盖了紧急情况和全球健康等多个健康背景,还涉及准确性、遵循指示和沟通等多个行为维度。这种开放式评估方式,使得HealthBench能够更全面地反映AI系统在医疗场景中的实际应用能力。

HealthBench在测试方式上也有所创新。它采用了多轮对话测试,而非简单的答题或选择题模式。这种测试方式更贴近真实医疗场景中的对话交流,有助于更准确地评估AI系统的理解和应对能力。

测试数据显示,HealthBench的推出对AI系统在医疗保健领域的表现产生了积极影响。例如,GPT-3.5Turbo在HealthBench上的得分从16%提升至GPT-4o的32%,而更先进的o3模型则达到了60%的得分,整体性能有了显著提升。尤其是小型模型方面,GPT-4.1nano不仅在性能上超越了GPT-4o,而且在成本上降低了25倍,展现了巨大的潜力和价值。

更多热门内容
2025年:中国芯片企业借AI浪潮,破局重生
2025年是AI应用的爆发年,也是关乎国产算力企业兴衰存亡的关键之年。现在真正做到了芯片、模型助力场景应用,场景反馈回来的数据,又增加了模型跟芯片进一步地迭代,形成了一个非常良性的正向循环。”我们从芯片厂商的…

2025-08-04