ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

6位前DeepMind成员创立Poetiq,以元系统重塑大模型,低成本刷新SOTA纪录

时间:2025-12-14 18:33:24来源:互联网编辑:快讯

六位前Google DeepMind核心成员组建的初创公司Poetiq,近日凭借其开发的元系统在人工智能领域引发关注。该系统通过动态组合前沿大模型,在抽象推理基准测试ARC-AGI-2中以54%的准确率刷新纪录,同时将单任务推理成本压缩至31美元,仅为前纪录保持者的一半。这一突破性成果已通过第三方机构ARC Prize的官方验证。

与传统大模型研发路径不同,Poetiq团队选择构建智能调度层。其核心元系统不依赖单一模型,而是通过分析任务特性自动生成解决方案,动态调用多个大模型形成协同网络。这种架构使系统在Gemini 3 Pro发布后24小时内即完成适配,并迅速取得领先成绩。测试数据显示,该系统在相同计算预算下可调用模型次数较传统方法提升3倍,在复杂任务中展现出显著优势。

技术实现层面,Poetiq采用递归强化机制。系统首先生成初步解决方案,通过多轮自我验证持续优化,最终输出经多模型交叉检验的结果。这种设计使系统在处理ARC-AGI测试集时,能自动识别需要编写代码辅助推理的场景,并精准分配任务给擅长代码生成的模型。实验表明,该系统在需要多步骤逻辑推导的题目中,准确率较单模型提升27个百分点。

成本优化方面,Poetiq开发了多层级解决方案矩阵。基础版基于开源模型GPT-OSS-120B,单题处理成本低于1美分;企业版整合Gemini 3与Grok 4等商业模型,在保持50%以上准确率的同时,将成本控制在主流方法的40%以下。特别值得关注的是,其Grok-4-Fast配置在成本降低两个数量级的情况下,仍达到与高价模型相当的推理精度。

ARC Prize官方报告显示,Poetiq系统在测试中展现出独特的自适应能力。面对不同复杂度的任务,系统会自动调整模型组合策略:简单任务优先调用轻量级模型,复杂任务则启动多模型协同推理。这种动态调度机制使系统在保持高效的同时,避免资源浪费。测试数据表明,该系统在80%的任务中实现了计算资源的最优分配。

技术团队透露,Poetiq的研发灵感源于对现有大模型局限性的观察。传统模型在处理需要多领域知识整合的复杂问题时,常因提示词敏感性导致表现波动。为此,系统特别强化了自主策略发现能力,通过让模型在模拟环境中试错,逐步演化出最优推理路径。这种进化式学习机制,使系统在未经微调的情况下即可适配新模型架构。

目前,Poetiq已开放部分技术配置的源代码,重点展示其循环验证框架和自我监控机制。开发者文档显示,系统通过内置的置信度评估模块,可实时判断推理进度,在结果可靠性达标时自动终止计算。这种设计使系统在保持高准确率的同时,将无效计算占比控制在5%以下,显著提升资源利用率。

行业分析认为,Poetiq的技术路径可能重塑AI应用开发范式。其元系统架构为解决大模型落地难题提供了新思路,特别是在需要跨模型协作的复杂场景中展现出独特价值。据悉,该团队正将技术拓展至医疗诊断、金融分析等领域,测试系统在真实世界任务中的表现。首批合作企业反馈显示,系统在处理多源异构数据时,推理效率较传统方法提升60%以上。

更多热门内容
春节前数码新品扎堆亮相:小米17 Ultra领衔 多款天玑芯片机型登场
【CNMO科技消息】12月14日,数码博主“数码闲聊站”爆料称,一批数码新品将在春节前集中登场,包含搭载第五代骁龙8至尊版移动平台的影像旗舰机型(×1)、搭载天玑8系芯片中端机(×1)、搭载天玑9系芯片中端机…

2025-12-14

2025旗舰手机大比拼:Magic8凭全能实力问鼎年度旗舰之巅
纵观四大旗舰,小米17的徕卡影像传承、X300的蔡司光学解析、FindX9的创新交互设计各具特色。但Magic8标配凭借6000nits顶级屏幕、7000mAh超长续航、三防认证与全场景影像系统,以无短板的…

2025-12-14

钻布材质手机壳怎么选?行业优势解析与高性价比靠谱厂家推荐
另外,钻布材质手机壳还可以结合UV打印技术,在手机壳表面打印出各种精美的图案,进一步提升其美观度和独特性。性价比高的钻布材质手机壳不仅要价格合理,还要在质量和外观上表现出色。相信在该公司的专业服务下,您一定能…

2025-12-14

小折叠手机怎么选?联想华为三星三款热门机型横评,帮你精准避坑
灵动外屏无缝衔接、轻量化机身适配多场景,这些小折叠手机的核心诉求,在本次推荐的机型中各有侧重。 1.追求高性价比与全能体验:优先选择联想moto razr 60,外屏实用、耐用性强、价格亲民,无论是学生党…

2025-12-14