ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

OpenAI 发布 GeneBench-Pro 基准测试,提升 AI 模型生物学分析能力!

时间:2026-07-02 12:51:21来源:CHINAZ编辑:快讯

在生物科技的快速发展中,如何高效且准确地分析复杂的生物数据成为了研究人员面临的一大挑战。为了帮助 AI 模型在这一领域展现更强的分析能力,OpenAI 近日推出了全新的 GeneBench-Pro 基准测试。这一基准专注于评估 AI 在基因组学、蛋白质组学等生物学任务中的实际研究能力,尤其是在面对混乱和不完整数据时的判断与决策能力。

GeneBench-Pro 与传统的基准测试有着显著的不同。传统测试往往侧重于模型的记忆能力和完成任务的固定流程,而 GeneBench-Pro 则更强调模型在真实科研环境中的实用性。测试任务设计时考虑了 “模糊、不完整和带有干扰” 的数据环境,让模型在这样的条件下进行数据探索和分析,从而更真实地反映其判断能力。

此次基准测试覆盖了广泛的生物学领域,包括基因组学、定量生物学和转化医学,共计129道题目,涵盖了统计遗传学、群体遗传学、功能基因组学和蛋白质组学等多个子领域。每道题目都会为模型提供接近真实科研环境的数据集,并要求模型根据简短的实验背景和相关问题自主选择分析方法并修正策略,最终得出结论。

为了避免传统长流程测试中常见的评分偏差,OpenAI 在设计 GeneBench-Pro 时采用了合成数据。这种方式允许 OpenAI 更好地控制数据生成过程,从而确保模型的表现更能反映其真实的理解能力,而不仅仅是通过猜测或走捷径而获得的正确答案。

目前,OpenAI 已在 Hugging Face 平台上开源了10道代表性的 GeneBench-Pro 示例题,外部研究人员可以通过可交互界面进行体验。后续,OpenAI 计划将其中50道题目交给 Artificial Analysis 进行独立评测,以验证不同模型在这一基准测试中的实际表现。

更多热门内容
LG成立CEO直管机器人中心:硬件软件双驱动 剑指全面机器人解决方案
新中心作为端到端业务单元,涵盖业务发展、销售和运营,由此前负责LG生产工程及智能工厂解决方案的宋始庸(Song Si-yong)领导。LG计划依托其自1962年以来积累的电机制造优势,在国内实现执行器的自主…

2026-07-02

99万“赛博伴侣”来袭,优必选U1开启情感陪伴新赛道,能否突围待考
在这之前,人形机器人行业已经启动了一轮价格重构。 这步棋的意义也显而易见:如果优必选真能在年内顺利完成1万台U1机器人交付,即便这1万台只是最低端的机型,也会带来12亿元左右的收入,这一数字超过了去年公司20…

2026-07-02

优必选CEO周剑:未来20年机器人或全面上岗 人类将转向创新领域
周剑表示,好好珍惜我们作为牛马、作为劳动力工作的最后光阴吧,这也就是未来5年10年20年的事情了。 周剑还称,产业人口的缺失让一个国家可以制造业空心化,如果未来人形机器人10年、20年在所有的岗位都能实现的…

2026-07-02