ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

OpenAI发布GeneBench-Pro基准测试:聚焦AI真实科研场景下的生物学计算能力评估

时间:2026-07-02 07:38:15来源:ITBEAR编辑:快讯

OpenAI 近日正式发布了一项名为 GeneBench-Pro 的新型基准测试工具,旨在全面评估人工智能模型在生物学研究领域的实际应用能力。这一测试框架突破了传统评估方式对知识记忆和固定流程的依赖,转而聚焦于模型在复杂科研场景中的问题解决能力,特别是在面对不完整、模糊甚至存在干扰的数据时,能否独立完成分析并形成支持决策的研究结论。

该测试体系覆盖基因组学、定量生物学、转化医学等核心领域,通过129道精心设计的题目构建起多维评估矩阵。题目分布于10个主要研究方向和21个细分领域,涉及统计遗传学、蛋白质组学、功能基因组学等前沿方向。每道测试题均包含接近真实科研场景的数据集、简明的实验背景说明以及与决策相关的核心问题,要求模型自主完成数据探索、方法选择和策略调整的全流程研究。

为解决传统评估中存在的评分偏差问题,研发团队创新性地采用合成数据作为测试基础。这种设计使得研究人员能够完全掌控数据生成机制和底层因果关系,从而精准区分模型是真正理解问题本质,还是通过统计捷径获得正确答案。相较于使用历史真实数据时可能出现的多路径合理分析现象,合成数据方案显著提升了评估结果的可靠性。

目前,OpenAI已在Hugging Face平台开放10道代表性示例题,配备交互式操作界面供科研人员体验。后续将通过Artificial Analysis平台开放50道测试题进行第三方独立评估,全面验证不同AI模型在该基准测试中的实际表现。这项创新工具的推出,为评估AI在生命科学领域的研究潜力提供了新的量化标准。

更多热门内容
国产算力新突破!海光信息携手同济大学,AI4E千卡集群助力工程智能升级
【环球网科技报道 记者李文瑶】6月25日,上海同济大学,海光信息与同济大学正式签署战略合作协议,挂牌成立全国首个“高校海光算力优化中心”,共建国内首个国产千卡工科智算集群。 此次千卡集群的落地,不仅填补了…

2026-07-02