ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

OpenAI发布o1 AI模型,实测规划能力高达97.8%准确率,智能时代新篇章?

时间:2024-09-25 21:38:33来源:ITBEAR编辑:快讯

【ITBEAR】9月25日消息,亚利桑那州立大学研究团队近日公布了一项关于OpenAI的o1模型的规划能力测试结果。在Blocksworld任务中,o1模型以97.8%的高准确率脱颖而出,远超先前领先的LLaMA 3.1 405B模型,后者准确率仅为62.6%。这一表现标志着o1在特定任务领域取得了显著进展。

据ITBEAR了解,此次测试采用了2022年开发的PlanBench基准,该基准旨在评估AI系统的规划能力。测试中包含了600个Blocksworld领域的任务,要求模型能够按照特定顺序堆叠积木。然而,在更为复杂的“Mystery Blocksworld”加密版本任务中,o1模型的准确率有所下降,仅为52.8%。而在一种新的随机变体测试中,其准确率更是降至37.3%,尽管如此,它仍然优于其他参与测试的模型。

随着任务复杂度的提升,o1模型的性能出现了明显的下滑。在需要20至40个规划步骤的任务中,其准确率从原本的97.8%大幅下降至23.63%。此外,o1模型在识别无法解决的任务方面也表现出了一定的困难,仅能在27%的情况下正确识别。而在54%的情况下,该模型会错误地生成完整但无法实际完成的计划。

尽管o1模型在基准性能上有所突破,但研究人员也指出了其在实际应用中可能面临的问题。首先是其高昂的运行成本,达到了近1900美元(约合人民币13342元)。其次,o1模型无法保证生成的解决方案的正确性,这在一定程度上限制了其在实际场景中的应用。相比之下,传统的规划算法在标准计算机上运行几乎无需额外成本。

#OpenAI# #o1模型# #规划能力测试# #Blocksworld# #准确率下滑#

更多热门内容
AI赋能显示新未来!京东方携“黑科技”亮相第十届国际显示技术展
作为全球显示技术领域的“风向标”,本届大会深度聚焦AI赋能成像与显示、应用视觉、虚拟现实、增强现实、混合现实及元宇宙、印刷显示、投影显示、触控与交互显示、车载显示等方面,集中呈现从基础材料、核心器件、先进工…

2026-04-01

小米18系列磁吸镜头与卡扣式增距镜测试中 或于9月及12月分批亮相
【CNMO科技消息】4月1日,数码博主“智慧皮卡丘”发文称,小米18系列磁吸镜头及卡扣式增距镜正在进行测试。 据数码闲聊站今年2月爆料,小米磁吸镜头方案已启动量产计划,最快年内面市。小米同时推进磁吸镜头与增距…

2026-04-01

20元有线耳机逆袭成潮流新宠,实用与情怀并重,为何受年轻人青睐?
而有线耳机完美解决了这些痛点:它不需要内置电池,不用充电,只要设备有电,插上就能听,随时随地都能使用,彻底告别续航焦虑;它一体成型,没有零散部件,哪怕随手扔在包里,也不用担心丢失,就算不小心弄丢,20块钱就…

2026-04-01

小米路由器BE7000推1.1.38版本更新 新增专属网络及多项安全优化功能
米家 App 相关新增 米家 App 路由器管理页面焕新。 优化 终端管理内传输速率单位转换逻辑,解决高速传输场景下的显示溢出问题。体验优化修复 解决部分手机特定场景下主动漫游后上网异常的问题。 解决路由…

2026-04-01

联想全面转型AI原生公司:新财年聚焦交付 剑指混合式AI领先地位
4月1日消息,在今天的联想集团2026/27财年誓师大会上,联想集团董事长兼CEO杨元庆宣布,联想将全面转型为AI原生公司。 他明确表示,“AI不是附加项目,不是额外一层,更不是事后补充”,要求从产品设计到业…

2026-04-01

REDMI K90至尊版入网在即:天玑9500芯片+100W快充,本月或迎发布盛宴
4月1日消息,今日,数码博主“数码闲聊站”透露,REDMI K90系列新成员入网,型号为2604FRK1EC,支持100W闪充。结合其透露的信息及此前多方爆料来看,该机预计为REDMI K90至尊版,有望本…

2026-04-01

2026年智能手机市场风云:平价旗舰能否凭性价比续写增长传奇?
2025 年全年,荣耀在马来西亚的销量大幅增长,目前已成为该国智能手机总销量第一的厂商。这一成绩得益于其在高端市场的增长,尤其是平价旗舰价位段:荣耀在该细分市场超越谷歌与小米,成为第二大安卓厂商,如今正与三星…

2026-04-01