ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

2026年大模型训练新战场:强化学习云如何重塑AI进化新格局

时间:2026-01-13 00:16:50来源:快讯编辑:快讯

2024年末,硅谷与北京的科技圈被同一个话题震动:大模型领域的Scaling Law似乎遭遇瓶颈。彼时,英伟达股价仍在攀升,但多方消息显示,包括备受期待的Orion(原计划中的GPT-5)在内的新一代模型,单纯通过增加参数和训练数据已难以实现预期的性能跃升。更有研究预测,预训练所需的数据资源将在2028年耗尽,这一论断为行业蒙上一层阴影。

转折发生在2025年初。OpenAI率先推出o1模型,通过引入强化推理机制,证明“测试时间扩展”(test-time scaling)可显著提升模型智能水平——即通过延长思考时间换取更深度的推理能力。然而,o1的闭源特性使其技术门槛高不可攀,行业一度认为这是巨头专属的“黑科技”。直到同年1月,DeepSeek R1横空出世,不仅复现了o1的技术路线,更以开源姿态向全行业开放,彻底打破了僵局。其核心突破在于:通过强化学习驱动的思维链(CoT),使模型具备类似人类“慢思考”的推理能力,证明参数规模并非唯一关键,深度推理能力才是突破瓶颈的核心。

这一变革迅速重塑行业格局。九章云极DataCanvas AI首席科学家缪旭在2025算力生态大会上指出:“DeepSeek的出现让我们意识到,强化学习能重新激活大模型的进化速度。”更关键的是,它降低了技术门槛,让算力重心从“预训练扩展”转向“后训练扩展”与“测试时间扩展”。英伟达博客的一篇分析也印证了这一趋势:当模型能力不再仅依赖海量数据,算力消耗的重心正从静态训练转向动态探索与推理,传统云计算架构已难以支撑。

面对新范式,行业亟需全新的算力基础设施。缪旭在演讲中提出一个关键公式:“当智能可以并行进化,强化学习云将成为群体智能的放大器。”这一概念由九章云极率先定义,并成为其应对变革的核心战略。作为独立智算云赛道的领军企业,九章云极不仅提出理念,更通过前瞻性布局,成为后训练时代算力标准的制定者。

其优势源于对趋势的精准把握。2025年6月,九章云极发布全球首个工业级强化学习云平台Agentic RL,而此时主流市场仍聚焦于扩大预训练集群或降低传统推理成本。Agentic RL的独特性在于:它未在旧架构上修补,而是基于混合专家(MoE)架构与Serverless理念,实现算力的“按需即取、即用即还”。数据显示,该平台将端到端训练效率提升500%,综合成本下降60%,并成为全球首个支持万卡级异构算力调度的强化学习基础设施。这一突破标志着九章云极从“卖资源”升级为“卖能力”,重新定义了算力服务模式。

Agentic RL的核心目标是让通用模型进化为专家模型。缪旭解释,其技术架构赋予模型长时程规划、复杂工具调用、检索增强生成优化等能力,使模型从“语言专家”升级为能解决实际物理问题的“执行者”。更宏大的构想是:未来的通用人工智能(AGI)可能由成千上万个垂类专家智能体组成“群体智能”,而非单一巨型模型。为支撑这一目标,九章云极开发了多项核心技术,例如全异步训练架构将GPU利用率稳定在95%以上,基于回放的离线强化学习算法使训练速度提升5倍,以及与高校合作构建的“世界模型”,为自动驾驶等高风险领域提供安全探索的虚拟沙盒。

支撑这一技术体系的,是九章云极精心打造的Alaya NeW Cloud智能基础设施。与传统云厂商在通用云上“打补丁”不同,Alaya NeW Cloud从底层到应用完成四层全栈重构,围绕智能体运行逻辑优化设计。例如,其云容器实例(CCI)支持一键部署,可快速适配最新模型——2025年末上线的满血版DeepSeek-3.2即通过该平台实现高效运行,验证了其对前沿技术的快速支持能力。

技术领先仅是起点,真实场景落地才是检验标准。在安徽黄山,九章云极创造了行业纪录:仅用48天便建成一座500 PFLOPS规模的“大位”智算中心,并投入运营。这一速度不仅体现其工程化能力,更证明其智算操作系统在异构算力调度上的高效性。“大位”中心并非传统机房,而是国内首个“文旅+AI”城市级产业应用基础设施。依托强化学习技术,黄山实现全国首个“全程AI伴游”景区:数千个智能体在此学习理解游客意图、规划路线、处理突发状况,通过真实互动不断优化策略。这种在高频场景中的智能进化能力,远比实验室数据更具商业价值。

智算中心的经济效益同样显著。根据《2026智算赋能城市产业发展白皮书》,黄山模式被定义为“中小城市智算赋能标杆”。易观分析预测,“大位”中心全面达产后,每年将直接带动黄山市营利性服务业增加值增长超2亿元。九章云极董事长方磊在大会上强调:“算力的核心价值在于普惠与落地效能。”黄山实践证明,强化学习云不仅能消耗电力,更能生产GDP。这一成果吸引中科动力、百鹏互联等6家AI企业集中签约,形成“算力底座+丰富场景”的智算生态。

在AI基础设施领域,九章云极选择了一条独特道路:做独立智算云赛道的领军者。其“独立性”体现在明确边界——不与客户争利,不绑定特定模型,而是倡导“开源1000专家模型”,通过动态组合放大群体智能,为中小企业提供高效解决方案。这种模式与绑定闭源大模型的巨头云厂商形成鲜明对比,更易构建开放生态。例如,其发起的AI-STAR企业生态联盟连接上下游厂商,形成自主可控的产业链闭环。

领军者的地位不仅体现在规模,更在于定义规则的能力。在算力计费混乱的时代,九章云极率先推出“1度算力”普惠标准;在后训练时代,其通过Agentic RL定义了下一代基础设施的标准架构,包括Serverless弹性调度和异构资源管理。这些举措使其从“卖算力”升级为“定标准”,成为行业规则的制定者。

2026年的云计算竞争已进入“进化时代”,焦点从“降低电费”转向“加速智能体进化”。作为独立智算云赛道的领军企业,九章云极通过Agentic RL平台,为全球硅基智能体提供了进化引擎。在黄山的数据中心里,成千上万个智能体正日夜不息地自我博弈——这场关于“进化”的故事,才刚刚开始。

更多热门内容
《工业互联网与AI深度融合:2028年将助力超5万家企业升级转型》
工业和信息化部近日印发《工业互联网和人工智能融合赋能行动方案》,提出到2028年,我国工业互联网与人工智能融合赋能水平显著提升,推动不少于5万家企业实施新型工业网络改造升级,在20个重点行业打造一批高质量数据…

2026-01-13

柔性电子新突破:我国科研团队让精密电路“随心贴”于万物表面
本研究第一作者、天津大学精密测试技术及仪器全国重点实验室和天津大学感知科学与工程系博士蒋成杰介绍说,在智慧农业领域,轻薄的电路可贴附于果蔬表面,实时监测储运温湿度,保障新鲜品质;在航空航天领域,该技术能为飞机…

2026-01-12

成者会议星AI会议工作站深度体验:高度集成化,让会议效率飙升的利器
最近,雷科技收到成者StarryHub会议星新品Studio50,一台被定义为“AI 会议工作站”的会议设备。 雷科技经常会召开选题会,主要目的就是探讨最近值得深度挖掘的选题,以及总结一些日常写作的技巧,但…

2026-01-12

千寻智能Spirit v1.5开源即登顶:国产具身智能冲进全球第一梯队
智东西1月12日报道,今日,千寻智能正式开源具身大模型Spiritv1.5,就在前一天,该模型在全球具身智能模型评测平台RoboChallenge上,综合评测斩获第一。 需要注意的是,大模型领域的榜单更迭…

2026-01-12

3位95后“草根”团队1500元造应用爆火,“死了么”缘何戳中独居群体痛点?
郭孟初介绍,“死了么”的开发时间其实不到一个月,早期开发成本只花了1500元,于2025年中在苹果应用商店上线。郭孟初表示,做这个App的初衷一方面是坚信安全守护软件是有意义的,另一方面是想证明中国人也能通…

2026-01-12

荣耀Magic8 Pro Air:6.1mm超薄机身搭载旗舰配置 重新定义轻薄手机新标杆
为支撑这一理念,荣耀 Magic8 Pro Air 在配置上并未手软。 面对通常被视为轻薄手机短板的影像系统,Magic8 Pro Air却搭载了“旗舰三摄”,包含一颗旗舰级潜望长焦镜头,主摄更采用了 1…

2026-01-12

移远通信CES 2026发布SP895BD-AP智能模组,高通跃龙Q-8750芯片赋能AIoT新体验
IT之家 1 月 12 日消息,移远通信 (Quectel) 本月 6 日在 CES 2026 上正式推出了新一代旗舰级智能模组SP895BD-AP,这一型号基于高通同期发布的跃龙 Q-8750 芯片。 跃…

2026-01-12

苹果健康应用大升级:全新设计亮相 新增AI助手及膳食跟踪功能
【环球网科技综合报道】1月12日消息,据9to5mac报道,苹果将于今年晚些时候推出“改版”的健康应用,此次改版包含四项升级。 此外,彭博社记者马克·古尔曼去年在一份简报中报道称,苹果公司将新推出膳食跟踪功能…

2026-01-12