OpenAI 发布 GeneBench-Pro 基准测试，提升 AI 模型生物学分析能力！-人工智能-ITBear科技资讯

在生物科技的快速发展中，如何高效且准确地分析复杂的生物数据成为了研究人员面临的一大挑战。为了帮助 AI 模型在这一领域展现更强的分析能力，OpenAI 近日推出了全新的 GeneBench-Pro 基准测试。这一基准专注于评估 AI 在基因组学、蛋白质组学等生物学任务中的实际研究能力，尤其是在面对混乱和不完整数据时的判断与决策能力。

GeneBench-Pro 与传统的基准测试有着显著的不同。传统测试往往侧重于模型的记忆能力和完成任务的固定流程，而 GeneBench-Pro 则更强调模型在真实科研环境中的实用性。测试任务设计时考虑了 “模糊、不完整和带有干扰” 的数据环境，让模型在这样的条件下进行数据探索和分析，从而更真实地反映其判断能力。

此次基准测试覆盖了广泛的生物学领域，包括基因组学、定量生物学和转化医学，共计129道题目，涵盖了统计遗传学、群体遗传学、功能基因组学和蛋白质组学等多个子领域。每道题目都会为模型提供接近真实科研环境的数据集，并要求模型根据简短的实验背景和相关问题自主选择分析方法并修正策略，最终得出结论。

为了避免传统长流程测试中常见的评分偏差，OpenAI 在设计 GeneBench-Pro 时采用了合成数据。这种方式允许 OpenAI 更好地控制数据生成过程，从而确保模型的表现更能反映其真实的理解能力，而不仅仅是通过猜测或走捷径而获得的正确答案。

目前，OpenAI 已在 Hugging Face 平台上开源了10道代表性的 GeneBench-Pro 示例题，外部研究人员可以通过可交互界面进行体验。后续，OpenAI 计划将其中50道题目交给 Artificial Analysis 进行独立评测，以验证不同模型在这一基准测试中的实际表现。

气象探测新利器：纳睿雷达发布“睿宸”AI 气象大模型及相控阵雷达

2026-07-02

两分钟上手生产级语音智能体：xAI 发布 Voice Agent Builder 测试版

2026-07-02

告别“一刀切”：Cloudflare 推出精细化 AI 流量管理，筑起网站变现护城河

2026-07-02

家庭具身智能企业乐享科技完成近5亿元Pre-A轮融资，蚂蚁集团领投

2026-07-02

从产业趋势到产品实践 GBASE技术云享会解码国产数据库发展新机遇

2026-07-02

古尔曼爆料：苹果2027年春季将推新款iPad Pro 芯片升级或聚焦M6与M7

2026-07-02

LG成立CEO直管机器人中心：硬件软件双驱动剑指全面机器人解决方案

新中心作为端到端业务单元，涵盖业务发展、销售和运营，由此前负责LG生产工程及智能工厂解决方案的宋始庸（Song Si-yong）领导。LG计划依托其自1962年以来积累的电机制造优势，在国内实现执行器的自主…

2026-07-02

99万“赛博伴侣”来袭，优必选U1开启情感陪伴新赛道，能否突围待考

在这之前，人形机器人行业已经启动了一轮价格重构。这步棋的意义也显而易见：如果优必选真能在年内顺利完成1万台U1机器人交付，即便这1万台只是最低端的机型，也会带来12亿元左右的收入，这一数字超过了去年公司20…

2026-07-02

优必选CEO周剑：未来20年机器人或全面上岗人类将转向创新领域

周剑表示，好好珍惜我们作为牛马、作为劳动力工作的最后光阴吧，这也就是未来5年10年20年的事情了。周剑还称，产业人口的缺失让一个国家可以制造业空心化，如果未来人形机器人10年、20年在所有的岗位都能实现的…

2026-07-02

优必选U1 Ultra定价引热议：男版99万女版88万，功能一致价差11万为何？

2026-07-02