ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

LMArena公正性遭质疑:大型AI供应商是否享有不公优势?

时间:2025-05-02 09:32:27来源:ITBEAR编辑:快讯团队

人工智能领域近期掀起了一场关于公共基准测试平台公正性的热议。LMArena,这一备受瞩目的平台,近期被指存在对大型供应商如OpenAI、谷歌及meta的潜在偏袒,引发了行业内的广泛关注和争议。

LMArena平台通过展示不同大型语言模型(LLM)的回复对比,并由用户投票选出更优者,形成了一个在行业内被广泛引用的模型性能排行榜。这一机制原本旨在提供一个公平、透明的评估环境,然而,最新的研究却揭示了其排名系统可能存在的问题。

由Cohere Labs、普林斯顿大学和麻省理工学院的研究人员联合进行的一项深入分析显示,LMArena的排名可能受到了大型企业优势的影响。这些企业被指能够私下测试多个模型版本,并仅选择性能最佳的版本进行展示,而其余的则被悄然移除。这种做法被称为“分数游戏”,它使得排行榜上的模型更像是经过精心挑选的“优等生”。例如,meta在发布Llama4之前,据称至少测试了27个内部版本,并在用户批评后,部署了专门针对基准测试优化的版本。

研究还发现,大型供应商在获取用户数据方面拥有显著优势。通过API接口,它们能够收集到大量的用户与模型交互的数据,包括提示和偏好设置。然而,这些数据并未被公平地共享,OpenAI和谷歌的模型占据了绝大多数的用户交互数据(占比高达61.4%)。这使得它们能够利用更多的数据进行优化,甚至可能针对LMArena平台进行专门优化,从而提升排名。

更令人担忧的是,大量模型在未公开通知的情况下被从LMArena平台移除,这对开源模型的影响尤为严重。在评估的243个模型中,有205个模型未经解释就被停用,仅有47个模型被正式标记为弃用。这种缺乏透明度的模型移除机制,进一步加剧了排名的失真。

面对这些指控,LMArena团队迅速做出回应,坚决否认存在偏袒行为。他们强调,其排名系统反映了数百万真实的人类偏好,并认为提交前的测试是合法且必要的手段,旨在确定最符合用户期望的模型变体。LMArena团队还表示,他们仅依据最终公开发布的模型进行排名,且平台的源代码和数百万用户交互数据均已公开,以体现其开放的设计理念。

然而,尽管LMArena团队做出了回应,但研究人员仍坚持认为平台需要进行改革。他们呼吁LMArena公开所有测试过的模型变体、限制供应商单次提交的版本数量、确保模型在用户之间更公平地分配,并对模型移除进行清晰记录。他们警告说,如果缺乏更严格的监督,LMArena最终可能会奖励那些针对排行榜进行策略性优化的模型,而非真正性能卓越的模型。

更多热门内容
科大讯飞股价下滑,子公司入股AI企业能否成为新增长点?
这一动向引发了市场的广泛关注,尤其是在公司旗下的安徽讯飞云创科技有限公司近期入股了北京超智能科技有限公司的背景下。根据公开资料显示,北京超智能科技有限公司的经营范围涵盖人工智能基础软件开发及量子计算技术服务,…

2025-06-21

科大讯飞麦克风专利获批,音频设备领域再添创新力作!
科大讯飞在音频技术领域的不断探索与创新,正是其在科技行业中持续领先的重要原因之一。在这一背景下,科大讯飞的“麦克风”不仅是一次产品的创新,更是对未来音频应用场景的积极响应。科大讯飞的新专利“麦克风”也将可能…

2025-06-21

国投瑞银中证机器人指数发起式A最新净值公布,单月跌幅达1.83%
国投瑞银中证机器人指数发起式A成立于2024年11月19日,业绩比较基准为中证机器人指数收益率×95%+商业银行活期存款利率(税后)×5%。赵建自2024年10月25日管理(或拟管理)该基金,任职期内收益1…

2025-06-21

招商中证机器人指数型发起式A最新净值公布,单月下跌1.81%,重仓股表现如何?
招商中证机器人指数型发起式A成立于2024年1月19日,业绩比较基准为中证机器人指数收益率×95%+中国人民银行人民币活期存款利率(税后)×5%。许荣漫自2023年12月29日管理(或拟管理)该基金,任职期…

2025-06-21