ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

外围推理编排成关键!Poetiq系统助力GPT-5.2准确率创新高

时间:2025-12-25 17:50:20来源:快讯编辑:快讯

人工智能领域近期迎来一项突破性进展:一家名为Poetiq的初创公司通过其开发的元系统(meta-system),在不改动基础大模型的前提下,显著提升了AI在复杂推理任务中的表现。实验数据显示,该系统使GPT-5.2 X-High在权威测试集ARC-AGI-2上的成绩达到75%,较此前最优模型提升约15%,同时将单题处理成本控制在8美元以内。

这项成果的核心在于Poetiq构建的迭代式推理框架。与传统AI系统直接生成答案不同,该框架通过多轮交互实现自我优化:系统首先生成初步解决方案,随后根据反馈持续改进,直至形成最终答案。这种机制特别引入了自我审计功能,能够自动判断何时已获得足够信息,从而及时终止计算过程。实验表明,这种设计不仅提升了准确性,更有效降低了资源消耗——X-High版本之所以成本更低,正是因其能更快收敛到正确解。

测试采用的PUBLIC-eval数据集包含基础推理、自然语言处理及数学推理等标准任务,而更严苛的ARC-AGI-2测试则聚焦抽象推理、常识应用和创新能力等高阶认知维度。值得关注的是,Poetiq未对任何模型进行针对性训练或优化,其系统完全通过改进推理策略实现性能跃升。这种"模型无关"的特性,使得元系统能够无缝适配不同架构的AI模型,包括Gemini 3、GPT-5.1等前沿产品。

该团队特别强调,所有适配工作均在新模型发布前完成,且系统从未接触过测试任务集。这种"零接触"下的跨版本性能提升,证明其捕捉到了推理过程的本质规律,而非依赖特定模型的特性。ARC Prize总裁Greg Kamradt评价称,若成果经得起大规模验证,这套系统将彻底改变AI应用模式——通过动态切换模型应对不同任务,无需为每个场景重新训练系统。

这项突破由六人团队完成,其中多位核心成员来自Google DeepMind。联合创始人Ian Fischer和Shumeet Baluja均拥有资深研究背景,他们开发的元系统展现出惊人的泛化能力:在保持架构不变的情况下,系统能自动适配不同模型族的认知风格,实现跨版本性能提升。这种设计哲学获得业界高度认可,有专家指出,在模型外部构建智能架构的策略,使得新模型适配时间从数周缩短至数小时,为AI技术落地开辟了新路径。

目前团队正在收集更详细的性能数据,初步统计显示简单任务可在8-10分钟内完成,而最复杂任务的计算时间控制在12小时内。对于成本优化机制,Poetiq确认X-High版本确实通过更高效的推理路径实现了性能突破。随着系统持续迭代,这种"模型之上构建智能"的范式,或将重新定义人工智能的能力边界。

更多热门内容
Meta豪掷20亿收购背后:中国AI团队的逆袭与东西方创新逻辑的交融
今天咱们就来聊聊,这场收购背后到底藏着哪些技术变革和文明逻辑的碰撞,还有中国智慧成果被美国资本收购这事儿,到底该怎么看。有意思的是,这产品从一开始就瞄准了海外市场。 你看它的发展路径,既有中国特色的应用智…

2026-01-10

东方智慧与自然共生:阿里巴巴南湖未来科学园的生态人文探索
阿里巴巴南湖未来科技园景观设计,回应城市文脉延续、栖息地保护、人群需求,园区空间运营、文化叙事等诸多挑战,融合东方自然哲学和生态伦理,提供将文化、地方美学高度整合的解决思路,通过丰富的、可游逛的、包容性的景…

2026-01-10

OPPO、vivo、荣耀或跟进Pro Max机型,手机市场将迎新格局?
IT之家 1 月 10 日消息,博主 @数码闲聊站 今天在微博透露: 一个超前瞻,OVh 下一代旗舰都在评估 Pro Max MH已经有了,下一代也有,所以可能会全员 Pro Max 虽然博主并没有在文…

2026-01-10

英伟达挖角谷歌云高管任CMO:借力营销强将推动全球品牌与市场布局升级
【环球网科技综合报道】据彭博社1月9日消息,全球芯片巨头英伟达宣布重大人事任命,聘请谷歌云高管艾莉森·瓦戈菲尔德出任首席营销官,负责公司营销与沟通核心业务。 业内分析指出,当前全球芯片市场竞争日趋激烈,英伟达…

2026-01-10

乐聚机器人牵手阿里云 共探全栈AI赋能人形机器人新路径
1月8日,,双方将基于阿里云算力、AI平台、千问模型,共同开展人形机器人训练场合作,以及探索基于千问模型的具身智能联合解决方案和人形机器人产品的开发。 当日,乐聚智能(深圳)股份有限公司常务副总裁柯真东与阿里…

2026-01-10