ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

GPT-5.5“靠谱”背后:跨过可靠性阈值,AI发展迈向新阶段

时间:2026-05-22 23:25:11来源:互联网编辑:快讯

近期,人工智能领域的发展引发了广泛关注。GPT-5.5的发布和Claude Mythos的亮相,让网络安全、智能代理编程等领域的从业者明显感受到技术能力的跃升。人们不禁要问:AI的进步是真实加速,还是仅因关注度提升而产生的感知变化?针对这一问题,OpenAI后训练团队联合负责人Yann Dubois在MAD Podcast中分享了他的见解。

Yann指出,AI工具的实用性突破源于模型可靠性的提升。以OpenAI为例,去年12月模型可靠性达到关键阈值,能够稳定承担日常工作任务,这种变化在持续编码的开发者群体中尤为明显。他强调,模型能力的提升并非突变,而是持续积累的结果,但当可靠性达到临界点时,用户会产生"突然进步"的体验。模型能力的提升会形成正向循环——更强大的模型能加速下一代模型的研发,同时推理模型的应用场景正从竞赛级任务向真实世界问题迁移。

在GPT-5.5的研发过程中,跨部门协作和效率优化成为关键。Yann透露,该模型的开发是全公司共同努力的成果,团队在提升模型效率方面取得显著突破,多数任务的处理速度提升至前代的两倍。这种提升不仅体现在推理延迟的缩短,更源于模型在思考过程中对计算资源的更高效利用。他特别提到,模型能力的整合需要平衡垂直领域的深度与整体表现的稳定性,避免出现某些场景表现突出而其他场景表现薄弱的情况。

关于模型训练的三个阶段,Yann详细解释了预训练、中训练和后训练的分工。预训练通过扩大模型规模提升基础能力,中训练则聚焦于高质量数据的强化学习,后训练负责将模型能力转化为实际用户价值。他指出,多模态数据和合成数据是当前数据策略的重要方向,尽管多模态对推理能力的提升尚未得到完全验证,但在具身智能领域,与现实世界的交互仍是提升模型常识理解的关键。

在强化学习方面,Yann承认该技术曾面临稳定性挑战,但随着模型规模的扩大和基础设施的完善,其应用效果显著提升。他观察到,强化学习不仅优化了预训练中已有的能力,更释放出许多未被充分表现的新能力,如更强的推理、自我检查和延长思考时间等。对于训练方法的选择,他认为简单可扩展的方案更具优势,例如GRPO等朴素方法在开源社区表现出色。

针对模型泛化问题,Yann区分了算法泛化和能力泛化两种类型。他指出,虽然训练方法可以跨领域应用,但模型能力的迁移需要底层能力的支持。例如,数学竞赛能力可以迁移到编程领域,但难以直接应用于需要信息筛选和目标明确的真实工作场景。他特别提到,幻觉问题部分源于监督微调过程中对不确定信息的过度奖励,而强化学习通过采样评估机制能有效缓解这一问题。

在评测体系方面,Yann认为开放任务的评估难度正在增加。随着模型能力超越多数人类评估者,以及开放任务缺乏唯一正确答案的特性,构建有效的评测指标变得愈发困难。他看好"AI评AI"的发展方向,认为更强大的模型可以同时担任训练者和评估者的角色,形成能力提升的飞轮效应。对于垂直领域的应用开发,他鼓励创业者聚焦具体场景,解决权限管理、系统连接等"最后一公里"问题,这些领域存在巨大的价值创造空间。

更多热门内容
新型NAND闪存亮相:高效处理AI任务,抗辐射性能超传统30倍可应对太空环境
5月22日消息,据媒体报道,美国佐治亚理工学院的研究团队成功研制出一款新型NAND闪存。该闪存不仅能够高效处理人工智能(AI)任务,还能承受太空环境中的极端辐射,其抗辐射能力达到传统NAND闪存的30倍。 …

2026-05-22

AI大模型“幻觉”从何而来?技术优化下能否实现精准表达?
依托实时信息检索辅助作答,是现阶段抑制虚假表述效果最为突出的方式,改变模型单纯依靠过往学习记忆作答的传统模式,用户发起提问后,系统同步调取权威资料库、正规文献典籍、官方公开信息等可信内容,所有回答内容都从真实…

2026-05-22

Mac版Codex焕新升级:Appshots功能上线,窗口内容秒传AI助力高效工作
传送给 Codex 的数据不只是截图,它还能读取窗口里的文字内容,包括屏幕上没显示出来的部分。 在实际应用场景中,OpenAI表示该功能主要解决以下痛点,例如用户在调试网页,在浏览器中发现 Bug,在设计…

2026-05-22

OpenAI Codex六项更新来袭:手机遥控锁屏Mac,开发效率再升级!
Appshots功能支持用户将前台最上方的应用程序窗口发送到Codex中,当用户正在使用另一个应用程序时,可以同时按左右Command键,Codex会自动截取当前窗口上的可见图像、提取可见文本以及可见区域之…

2026-05-22

具身智能新突破!国家中试基地挂牌 机器人开启职业技能训练新篇章
据了解,中试基地打造了集场景体验、技术展示、研发合作、产业赋能于一体的综合性展示应用推广平台,既展示已经开发落地的商业应用场景,也展示数据采集和技能训练过程,引导具身智能技术进一步从实验室迈向现实社会应用。 …

2026-05-22