ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

多个AI模型“组团”效果如何?KAIKAKU研究:先看β值再决定

时间:2026-06-30 04:15:02来源:互联网编辑:快讯

当企业纷纷将多个AI模型组合使用,期望通过“众人拾柴火焰高”提升效果时,一项新研究却给这种做法泼了冷水。该研究指出,当前行业普遍依赖的“错误相关性”指标存在根本性缺陷,真正决定多模型系统上限的是所有模型同时答错同一道题的概率。

这项由独立研究团队完成的工作,通过大规模实验和数学证明,揭示了多模型组合的深层逻辑。研究发现,业界常用的“ρ(rho)”指标,即两个模型犯错习惯的相似度,无法准确预测多个模型集体失败的概率。即使两个模型两两之间的错误相关性完全相同,它们同时答错同一道题的概率仍可能存在巨大差异。

研究人员引入了新指标“β(beta)”,即所有模型同时答错同一道题的概率。他们通过一个比喻解释:假设有10位专家组成顾问团,无论投票机制多么精妙,如果10人全部答错某道题,那么无论怎么组合结果都是错的。这个“全员翻车率”β,就是多模型系统准确率的天花板——系统最高准确率等于1减去β。

实验覆盖了67个前沿AI模型,包括GPT-5.5、Claude Opus 4.8等知名模型,测试题目涵盖数学竞赛题、研究生科学问题和编程题。结果显示,在数学题上,所有模型同时答错的比例β达到5.2%,这意味着系统准确率上限约为94.8%。而实际测试中,最强单个模型的准确率为83.6%,组合策略带来的提升空间远小于预期。

更关键的是,行业常用的基于ρ的预测方法严重高估了组合效果。研究人员用精确的统计工具预测β,结果预测值仅为实际值的约2.5倍。即使考虑所有模型两两之间的完整相关结构,预测偏差仍然存在。这表明,某些题目会让所有模型集体犯错,而这种集体失效的概率无法通过两两关系推断。

随着模型数量增加,这一问题愈发严重。实验显示,当模型数量从2个增加到67个时,真实β与预测β的比值从1上升到2.5。这意味着,模型池越大,基于ρ的预测越不可靠。研究人员解释,每新增一个模型,虽然可以测量其与其他模型的两两相关性,但无法捕捉整个群体“全员同时失败”的高阶结构。

针对这一问题,研究团队提出了“可实现性证书”工具。用户只需用现有模型运行一批样本题,统计所有模型全部答错的题目数量,即可通过脚本计算出系统准确率的理论上限。如果这个上限低于运维成本,则组合模型无意义。该工具已开源,任何人都可以免费使用。

实际路由系统的测试结果也支持这一结论。在15个模型的实验中,理论最优路由比单个最佳模型高出4.4个百分点,但实际训练的路由器仅提升0.5个百分点,且置信区间包含零值,说明提升可能只是统计噪声。更强的路由方案,包括基于GPT-5-mini的AI路由器,也未能超越单个最佳模型。

研究还发现,不同任务面临截然不同的困境。在数学题上,β明显大于零,系统准确率被天花板压制;而在研究生科学选择题上,β接近零,但路由器无法实现理论上的15个百分点提升,因为正确答案的信息藏在答案本身而非问题中。开放式问答比选择题更容易导致所有模型同时犯错,因为选择题提供了选项约束,而开放式问答需要模型从零生成答案,不确定性更大。

关于模型多样性,研究指出,多样性只有在模型质量相当的情况下才有益。在质量差异大的情况下,低质量模型的投票会拖累整体效果。例如,三个模型中如果一个是专家,另外两个是普通人,多数票反而会否定专家的正确答案。但在质量相当的前提下,低相关性的组合确实优于高相关性的组合。

研究团队也承认了工作的局限性。他们的分析依赖于可自动评分的任务,对于写作质量、解释能力等开放生成任务,客观评分仍是一个挑战。在编程任务上,虽然验证了β低估现象,但样本量有限,确切倍数存在不确定性。路由器的训练和测试仅在15个模型上进行,大规模测试的结论依赖β证书而非端到端实验。

更多热门内容
室外智能设备箱:以模块化、智能化创新破解户外监控运维困局
选择室外抱杆机箱时,应综合考虑以下维度:物理防护等级是否满足部署环境要求,模块化设计是否便于后期维护,智能监测功能是否覆盖供电、网络、视频等关键环节,自动故障修复能力是否完善,以及是否支持远程管理与数据统计…

2026-06-30

MWC上海2026·6G生态展:红山科技HAPS平台,通导遥融合开启通信新未来
红山科技在通导遥融合方向上,已经形成了以HAPS平台为底座、艇载基站为核心、多源感知载荷为延伸的完整技术布局。第二个支点是通信载荷,这是我们自主建设的核心能力。 总的来说,红山科技将以HAPS平台为底座,通…

2026-06-30

零刻Mate Pro评测:五合一设计,笔记本好搭档,桌面简洁新选择
以上就是关于零刻Mate Pro的全部内容了,不难看出其“五合一”的设计都是实用设计,最关键的是只需要一条线就能实现硬盘扩展、接口扩展、高效充电等需求,如果你平时使用笔记本电脑或者迷你主机,存在文章中提到的…

2026-06-30

神舟二十三号乘组在轨满月成果丰硕,太空烤南瓜背后藏着哪些黑科技?
因为在神舟二十三号3人乘组之中,将出现1人在轨进行1年飞行,这还是我国首次进行这样的任务,进行在轨监控数据收集,就是后续执行任务的关键,而对于这一次任务之中到底谁在太空之中,当下是无法确定的。 所以,虽然不…

2026-06-29

倒计时第七十一天:姜辰填补飞行程序空白,团队齐心攻克技术难关
她走到姜辰旁边,低头看着屏幕上的那段轨迹图——一条平滑的曲线,在某个位置被标记了“姿态修正”的字样。 姜映梁经过堂屋的时候,看到姜辰还在那里,面前是那台终端,屏幕上的代码比下午多了好几页。她顺口提了一句:“…

2026-06-29