OpenAI发布GeneBench-Pro基准测试：聚焦AI真实科研场景下的生物学计算评估-人工智能-ITBear科技资讯

OpenAI近日正式发布了一项专为评估人工智能模型生物学研究能力设计的基准测试工具——GeneBench-Pro。该测试突破传统评估框架，重点考察模型在复杂科研场景中的自主决策能力，包括对非结构化数据的解析、分析路径的动态选择以及结论对实际问题的支撑性。

区别于常规基准测试仅关注知识记忆或固定流程执行的特点，GeneBench-Pro构建了高度模拟真实科研环境的数据场景。测试要求模型面对存在缺失值、噪声干扰甚至矛盾信息的实验数据时，能够自主完成数据清洗、方法适配和策略优化，最终形成可指导后续研究的结论。这种设计更贴近科研人员实际工作状态，强调模型在不确定性条件下的推理能力。

测试体系覆盖基因组学、蛋白质组学、转化医学等10个核心领域，包含21个细分研究方向的129道任务。每道题目均提供接近真实研究场景的数据集，配套简明实验背景说明和明确的研究目标。模型需要自主完成从数据探索到方法验证的全流程，过程中需根据数据特征动态调整分析策略，最终输出符合科研规范的结果。

为解决传统评估方式存在的评分偏差问题，研发团队采用合成数据技术构建测试核心。通过精确控制数据生成机制和底层因果关系，确保每道题目存在唯一正确解法。这种设计有效避免了使用真实历史数据时，因多路径分析导致的评估失真问题，使测试结果能更准确反映模型的真实理解能力。

目前该项目已在Hugging Face平台开放10道典型示例题，配备交互式操作界面供研究人员体验。后续将向第三方评估机构Artificial Analysis开放50道测试题，通过独立评审验证不同AI模型在该基准下的性能表现。这种开放协作模式旨在建立更透明的评估标准，推动AI生物学研究能力的标准化发展。

2026WAIC“AI创新者思享汇”：从共生到协同，共绘人机关系新蓝图

2026-07-02

孙周兴复旦演讲：探寻AI无法触及之地，不可数字化哥德尔信息成关键

2026-07-02

国产算力新突破！海光信息携手同济大学，AI4E千卡集群助力工程智能升级

【环球网科技报道记者李文瑶】6月25日，上海同济大学，海光信息与同济大学正式签署战略合作协议，挂牌成立全国首个“高校海光算力优化中心”，共建国内首个国产千卡工科智算集群。此次千卡集群的落地，不仅填补了…

2026-07-02