OpenAI发布医疗大模型测试集HealthBench，性能提升显著-人工智能-ITBear科技资讯

OpenAI近日在医疗健康领域迈出了重要一步，宣布推出并开源了专为医疗大模型设计的测试评估集——HealthBench。这一举措旨在更精确地评估AI系统在医疗健康领域的表现。

与以往的测试集相比，HealthBench在多个维度上实现了突破。其核心测试对话集由262名医生精心打造，他们来自60个国家和地区的26个专业，确保了测试内容的难度、真实性和丰富性。这些医生的专业背景使得HealthBench能够覆盖广泛的健康场景和行为维度。

具体而言，HealthBench包含了48562个独特的医生评分标准，这些标准不仅涵盖了紧急情况和全球健康等多个健康背景，还涉及准确性、遵循指示和沟通等多个行为维度。这种开放式评估方式，使得HealthBench能够更全面地反映AI系统在医疗场景中的实际应用能力。

HealthBench在测试方式上也有所创新。它采用了多轮对话测试，而非简单的答题或选择题模式。这种测试方式更贴近真实医疗场景中的对话交流，有助于更准确地评估AI系统的理解和应对能力。

测试数据显示，HealthBench的推出对AI系统在医疗保健领域的表现产生了积极影响。例如，GPT-3.5Turbo在HealthBench上的得分从16%提升至GPT-4o的32%，而更先进的o3模型则达到了60%的得分，整体性能有了显著提升。尤其是小型模型方面，GPT-4.1nano不仅在性能上超越了GPT-4o，而且在成本上降低了25倍，展现了巨大的潜力和价值。