近期,大模型领域发展势头迅猛,智谱AI与minimax相继完成上市,月之暗面KIMI也成功获得5亿美元融资,整个行业正从概念阶段加速迈向商业化落地。
在智谱AI成功上市后,其创始人、清华大学教授唐杰发表了一场公开演讲。他指出,2026年极有可能成为AI for Science的爆发之年,随着各项能力的显著提升,众多领域将迎来新的发展契机。
唐杰详细阐述了智谱AI在2026年的重点规划。首先,在Scaling方面将持续推进,不断扩充数据规模,探索模型性能的上限,同时积极探索未知的新范式。其次,技术创新是关键,公司将致力于全新的模型架构研发,着力解决超长上下文处理、高效知识压缩等难题,并实现知识记忆与持续学习功能,为模型赋予更强大的能力。多模态感统能力将成为今年的热点与重点,这一能力的突破将使AI能够胜任机器中的长任务、长时效任务,进而在人类的工作环境中发挥作用,助力AI实现具身智能,真正融入物理世界。
唐杰回顾了自己的科研历程,自2006年从清华大学毕业后的20年里,他主要专注于两件事:一是开发AMiner系统,二是投身于大模型研究。他以“像喝咖啡一样上瘾”的精神投身科研,这种专注与坚持促使他抓住了AGI这一长期投入领域的机遇。
智谱AI实验室在2019年做出了重大战略调整,暂停了当时在国际上表现不错的图神经网络和知识图谱研究方向,全体人员转向大模型研究。经过多年的努力,取得了显著成果。从大模型智能水平的发展历程来看,2020年时模型仅能处理一些简单的MMU和QA问题,到2021 - 2022年已能够完成数学推理题,再到2023 - 2024年可以处理研究生水平的复杂问题,甚至在真实世界的编程问题上也表现出色,智能水平不断提升,如同人类成长一般逐步积累知识、提升能力。
在提升模型泛化能力方面,唐杰表示,目前主要通过Scaling来实现,但模型的泛化能力仍有待提高。早期通过Transformer训练模型,数据和算力的增加提升了长时知识记忆能力,但泛化能力有限。后来通过对齐和推理,利用持续的Scaling SFT和强化学习,尤其是今年可验证奖励强化学习(RLVR)的爆发,使模型能够通过可验证环境自主探索反馈数据,实现自我成长。然而,RLVR也面临挑战,如可验证场景的局限性,如何拓展到半自动或不可验证场景,实现模型的通用化,是亟待解决的问题。同时,未来机器将在物理世界承担真实任务,构建智能体环境也面临诸多挑战。
2025年初,DeepSeek的出现给研究界和产业界带来了巨大冲击,其性能强大,令人震撼。唐杰认为,在DeepSeek的范式下,Chat时代的问题可能已基本得到解决,未来AI的发展将开启新范式,即让每个人能够运用AI完成实际任务。在这一选择上,智谱AI选择了赋予模型Thinking能力,并整合Coding、Agentic、Reasoning能力,于2025年7月28日发布了4.5版本,在智能体、推理、代码等多个Benchmark上取得了优异成绩。但该版本在实际编程场景中也暴露出一些问题,如无法完成复杂的“植物大战僵尸”编程任务,这促使公司利用RLVR可验证的强化学习环境,结合编程环境反馈和SFT数据,提升了模型效果。
在Web能力开发方面,智谱AI也取得了一定进展,通过可验证环境提升了模型在SWE Bench上的得分。然而,将模型能力整合到主模型仍面临挑战,真实用户体验与跑分结果可能存在差异。为此,公司开发了全异步的训练强化学习框架,统一训练大量RL任务,提升了Agent和Coding能力,最新发布的4.7版本在相关方面有了显著提升。在真实场景评测中,公司邀请众多编程高手进行人工评测,但仍有许多问题有待解决。
在构建Coding Agent环境方面,智谱AI基于Github数据实现了自动化构建,但将大量RL任务统一训练也面临任务长度和时间不同的难题。公司开源的全异步训练强化学习框架解决了这一问题,提升了Agent和Coding能力。同时,在让AI完成复杂任务方面,如监控小红书并整理相关讨论生成文档,需要将API与GUI混合使用,通过抽取大量数据并进行全异步强化学习,赋予AI一定的泛化能力。为克服冷启动问题,公司采用SFT与强化学习交替的训练算法,提升了模型在移动环境下的效果,并在多任务大模型强调学习上开展了相关工作。
2025年12月,智谱AI开源了AutoGLM 9B模型,该模型在人机交互中执行速度快,开源后迅速获得了大量关注。以旅行规划任务为例,该模型能够自动调用不同APP,完成景点总结、地图收藏、票价查询、高铁票预订等一系列操作,相当于一个智能秘书。在相关Bench上,该模型也取得了不错的成绩,但也带来了新的问题,即在超大规模Agent模型上如何保持其他能力的稳定。
2025年被称为GLM的开源年,智谱AI从1月到12月开源了多个模型,包括语言模型、智能体模型和多模态模型等。中国开源模型在2025年取得了显著贡献,在Artificial Analysis上,前五名基本为中国模型,大模型盲测榜单也显示中国模型表现出色。但唐杰也指出,不能因开源成果而盲目乐观,美国闭源大模型的发展仍不可忽视,中国与美国在大模型领域仍存在差距。
对于未来大模型的发展,唐杰认为可以参考人脑认知的学习过程。2025年可能是多模态的适应年,目前大多数模型仍以文本智能提升为主,如何实现原生多模态模型,统一感知多模态信息,是亟待解决的问题,这与人类的“感统”能力相似。模型的记忆能力和可持续学习能力也有待提高,人类拥有多级记忆系统,未来需要为大模型构建更完善的记忆系统。同时,反思和自我认知能力也是未来发展的方向,虽然目前模型已有一定反思能力,但自我认知仍是难题,值得深入探索。
人类认知具有双系统特点,系统一完成大部分简单任务,系统二处理复杂推理问题。大模型发展也可参考这一模式,通过Scaling数据、推理和自学习环境,让机器参考人的学习范式,获得更多学习机会。在系统一方面,虽然Transformer模型可通过增加数据和参数提升性能,但面临计算复杂度和显存等问题,需要探索更好的知识压缩方法。在系统二方面,需要找到新的Scaling范式,让机器能够自主定义奖励函数、交互方法和训练任务,实现自我提升。完成真实场景下的超长任务也是关键,机器需要具备像人一样的规划、检查和反馈能力。