ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

OpenAI发布GeneBench-Pro基准测试:聚焦AI真实科研场景下的生物学计算评估

时间:2026-07-02 05:38:14来源:互联网编辑:快讯

OpenAI近日正式发布了一项专为评估人工智能模型生物学研究能力设计的基准测试工具——GeneBench-Pro。该测试突破传统评估框架,重点考察模型在复杂科研场景中的自主决策能力,包括对非结构化数据的解析、分析路径的动态选择以及结论对实际问题的支撑性。

区别于常规基准测试仅关注知识记忆或固定流程执行的特点,GeneBench-Pro构建了高度模拟真实科研环境的数据场景。测试要求模型面对存在缺失值、噪声干扰甚至矛盾信息的实验数据时,能够自主完成数据清洗、方法适配和策略优化,最终形成可指导后续研究的结论。这种设计更贴近科研人员实际工作状态,强调模型在不确定性条件下的推理能力。

测试体系覆盖基因组学、蛋白质组学、转化医学等10个核心领域,包含21个细分研究方向的129道任务。每道题目均提供接近真实研究场景的数据集,配套简明实验背景说明和明确的研究目标。模型需要自主完成从数据探索到方法验证的全流程,过程中需根据数据特征动态调整分析策略,最终输出符合科研规范的结果。

为解决传统评估方式存在的评分偏差问题,研发团队采用合成数据技术构建测试核心。通过精确控制数据生成机制和底层因果关系,确保每道题目存在唯一正确解法。这种设计有效避免了使用真实历史数据时,因多路径分析导致的评估失真问题,使测试结果能更准确反映模型的真实理解能力。

目前该项目已在Hugging Face平台开放10道典型示例题,配备交互式操作界面供研究人员体验。后续将向第三方评估机构Artificial Analysis开放50道测试题,通过独立评审验证不同AI模型在该基准下的性能表现。这种开放协作模式旨在建立更透明的评估标准,推动AI生物学研究能力的标准化发展。

更多热门内容
国产算力新突破!海光信息携手同济大学,AI4E千卡集群助力工程智能升级
【环球网科技报道 记者李文瑶】6月25日,上海同济大学,海光信息与同济大学正式签署战略合作协议,挂牌成立全国首个“高校海光算力优化中心”,共建国内首个国产千卡工科智算集群。 此次千卡集群的落地,不仅填补了…

2026-07-02

优必选发布全球首款全尺寸超仿生人形机器人U1系列 盘中股价涨超17%
上证报中国证券网讯(记者 何治民 杨子晏)6月30日午后,优必选震荡拉升,截至14时22分,该股涨17.51%,报112.4港元/股。 消息面上,6月30日下午,优必选发布全球首款全尺寸超仿生人形机器人U1系…

2026-07-02

英伟达中国大规模招揽机器人人才,具身智能领域高薪“抢人”进行时
具身智能团队开放岗位最多,共6个职位;仿真方向开放4个岗位;部署方向同样设4个岗位;解决方案架构方向设2个岗位,负责向各行业输出英伟达技术方案。目标是打造机器人领域的安卓生态,覆盖工业机械臂、四足与人形机器…

2026-07-02