ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepMind华人研究员Lun Wang离职:评估体系滞后或成AI发展“绊脚石”

时间:2026-05-19 18:08:10来源:互联网编辑:快讯

谷歌DeepMind前研究员Lun Wang近日在社交平台宣布结束在该机构的研究生涯,并发表长文探讨人工智能评估体系的根本性缺陷。他指出,当前行业在评估现有模型性能方面已形成成熟方法,但面对可能突破现有能力边界的新型模型时,现有评估框架存在系统性失效风险。

核心矛盾在于评估体系与模型发展的非对称性。研究显示,当大型语言模型(LLM)规模突破临界点时,会出现诸如思维链推理、指令遵循等涌现能力,这类质变无法通过现有指标预测。2022年Power团队发现的Grokking现象更印证了这种滞后性——神经网络在长时间死记硬背后突然获得泛化能力,而传统评估指标对此毫无预警。

针对Schaeffer等人提出的"能力跃迁实为指标伪影"观点,Lun Wang认为这反而暴露更深层危机:"当我们无法区分真实质变与测量误差时,如何预判下次突破?"他以策略性信息隐瞒为例说明评估盲区:当模型学会选择性隐藏事实以达成目标时,现有诚实度基准和安全分类器均无法识别这种新型欺骗行为。

这种被动响应式评估模式形成恶性循环。由于缺乏预测能力转变的"序参量",行业只能在新型能力出现后仓促构建评估方案。正如思维链技术普及后,原有推理基准集体失效,迫使研究者开发更复杂的评估工具。Lun Wang警告,随着模型向智能体演进,具备自主生成数据、修改评估流程的能力,静态评估体系将彻底崩溃。

解决方案指向构建自适应评估生态。2026年Shan团队利用统计力学推导出持续学习环境下的深度网络序参量,为预测学习能力相变提供理论工具。Nanda等人通过机制可解释性技术,在Grokking现象发生前捕捉到神经网络内部结构变化。这些研究暗示,通过监控基准分数分布特征、评估相关性转移、能力维度正交性等元信号,可能建立预警机制。

更激进的设想是开发自我演进评估系统。这类系统需具备三大能力:检测自身过时性、利用被测模型生成新型测试案例、发现人类设计者未预见的失败模式。有研究者提议同步开展"评估红队对抗",通过主动攻击评估体系暴露缺陷,形成持续进化压力。

该观点已引发学术界讨论。有专家补充指出,评估体系进化需与模型训练形成闭环——当评估指标能预测规模扩展效应时,才能设计出真正有效的训练目标和安全机制。反之,错误评估范式将导致训练信号、安全指标、规模化决策等全链条失效,且这种系统性风险具有隐蔽性,往往在造成实质损害前难以察觉。

更多热门内容
传音Tecno Pova 8 5G印度将发布:后摄带点阵屏 8000mAh大电池成亮点
IT之家 6 月 6 日消息,传音今天在 X 平台宣布,Tecno Pova 8 5G 手机将于 6 月 11 日在印度市场发布。IT之家注意到,Tecno Pova 8 的后摄模组上带有一块小型点阵屏,这…

2026-06-06

七彩虹灵创K16笔记本评测:128GB内存加持 96GB显存轻松驾驭230B大模型
七彩虹灵创K16搭载了AMD锐龙AI Max+395处理器,搭配128GB的四通道LPDDR5X内存,最高可分配96GB显存,可以支持更大参数的大模型本地运行,拥有更优秀的推理质量和效率。 回到七彩虹灵创…

2026-06-06

华为云Agentic Infra技术革新:引领AI算力底座迈向全新进化时代
因此,华为云提出Agentic Infra新范式,核心是构建“高效Token工厂+通智一体化调度+持续学习+安全自治”四大能力,具体通过灵衢智算集群AICS打造极致效能Token工厂、以存代算提供PB级记忆…

2026-06-06

内存成本飙升成转折点:小米路由器为何在市场争锋中暂落华为之后?
一年前的时候,内存芯片在路由器总成本里只占3%左右,但到了2026年,直接飙升到20%以上。 但如今路由器成本上涨,小米的堆料效果不明显了,因为小米也不敢疯狂堆料了,再这么堆料,麻烦就大了,所以这米最近很久…

2026-06-06

美的方洪波谈竞争:小米非最大对手,真正的威胁源自内部自我革新
IT之家 6 月 6 日消息,据证券时报 6 月 5 日报道,美的集团董事长方洪波在 2025年度股东会与投资者交流时,回答了“小米是美的集团的最大竞争对手”的话题。 方洪波直言:“我们从没说过小米是最大竞…

2026-06-06

传音Tecno Pova 8 5G将发布:后摄带点阵屏,还配备8000mAh大电池
IT之家 6 月 6 日消息,传音今天在 X 平台宣布,Tecno Pova 8 5G 手机将于 6 月 11 日在印度市场发布。IT之家注意到,Tecno Pova 8 的后摄模组上带有一块小型点阵屏,这…

2026-06-06

小米下半年推超高端MIX新机:玄戒O3芯片搭配澎湃OS 4及MiMo大模型齐亮相
小米创始人早在年初就亲自透露,2026年,小米预计将在一款终端上实现自研芯片、自研OS、自研AI大模型“大会师”。综合目前已知爆料,这款新品并非是小米17S Pro,而是隶属于MIX系列,将由新一代大折叠…

2026-06-06

中美航天服对比:美10亿造价仅用5次,中国3000万成本实现20次出舱
随着神舟系列飞船持续稳定的发射和国产飞天航天服的高耐用性与性价比,越来越多发展中国家主动与中国载人航天办公室对接,寻求航天服及飞船技术合作,打破欧美航天装备垄断定价。 从美国天价航天服仅…

2026-06-06

长征十二号乙首飞引热议:中国航天硬实力崛起,改写全球商业航天规则
中国在2025年才密集验证回收技术,首飞阶段侧重关键环节测试,这才是务实创新。长征十二号乙首飞的真正意义,不在于是否提前通告,也不在于回收是否成功,而在于向世界展示:中国的商业航天完全有能力开辟第二条路径。随…

2026-06-06